# Interface



# 特集

RISCプロセッサの基礎から最新プロセッサのしくみまで

# 35 詳説マイクロプロセッサ パイプラインとスーパースカラ

Detailed explanation on microprocessors — pipeline and super scalar

特集執筆:中森 章 (Akira Nakamori)

序章 コンピュータの誕生からプロセッサの発展まで

36 マイクロプロセッサの歴史

**Prologue** History of microprocessors

第1章 プロセッサの構成要素と動作の基本

41 プロセッサの基礎知識

Chapter 1 Basic knowledge of processors

第2章 もっとも基本的なプロセッサ高速化技法

50 パイプライン処理の概念

Chapter 2 Concept of pipeline processing

第3章 実際のプロセッサはどのように動いているか

62 パイプライン処理の実際

Chapter 3 Realities of pipeline processing

Appendix 1 システムオンチップ時代のデバッグ手法

70 エミュレーション機能の基礎

Appendix 1 Basics of the emulation functions

第4章 1クロックで複数の命令を同時に実行する

74 並列処理の基本とスーパースカラ

Chapter 4 Basics of parallel processing and super scalar

第5章 実際のプロセッサではどのように実装されているか

81 スーパースカラの実際

Chapter 5 Realities of super scalar

Appendix 2 携帯機器ではとくに重要な

103 低消費電力技術の原理

Appendix 2 Principles of low power consumption technology







# Interface

井手野雅明

Masaaki Ideno

吉岡弘降

Hirotaka Yoshioka

# 話題のテクノロジ解説

新連載 SDIOカード開発入門(第1回)

108 SDIOカードの現状

Current situations of SDIO card

Pentium4/Intel Xeonにおける性能モニタ機能を利用した

メモリプロファイリングツールを開発する――実践編 152

Developing a memory profiling tool -- chapter on practice

TOPPERSで学ぶRTOS技術(第2回)

160 シミュレータ環境を使って実際に動かしてみよう!

Let s run it using the simulator environment!

PC/ATのさまざまな資源を管理する

172 ACPIによるPC/ATの電力管理とコンフィグレーション(後編)

Power management and configuration of PC/AT with ACPI

安達健一

北村俊之

今井和彦

Kazuhiko Imai

Kenichi Adachi

# ショウレポート&コラム

組み込み技術の総合展示会

13 第6回 組込みシステム開発技術展 ESEC

The 6th Embedded Systems Expo & Conference - - ESEC

ハッカーの常識的見聞録(第34回)

17 家庭でのInternetを快適にしよう!

Let s make the internet at home comfortable!

フジワラヒロタツの現場検証(第72回・最終回)

19 現場検証、最後の挨拶

Last greeting - - A reconstruction of the scene

シニアエンジニアの技術草子(参拾弐之段)

182 ディジタルブラウジング

Digital Browsing

Engineering Life in Silicon Valley (対談編)

放浪の旅を経てエンジニアに…… 184

Becoming an engineer after wandering journey

広畑由紀夫 Yukio Hirohata

Toshiyuki Kitamura

Hirotatsu Fujiwara

旭 征佑 Shousuke Asahi

H. Tony Chin

# 般解説&連載

やり直しのための信号数学(第18回)

114 DCTとフィルタバンク

DCT and filter bank

三谷政昭

Masaaki Mitani

開発技術者のためのアセンブル入門(第21回) 125 FPU命令の概略

Summary of FPU instructions

大貫広幸 Hiroyuki Oonuki

新連載 初級ドライバ開発者のためのWindowsデバイスドライバ開発テクニック(第1回) 137 デバイスドライバの基本関数

Basics in making a device driver

丸山治雄 Haruo Maruyama

開発環境探訪(第22回)

146 日本語でプログラミングを行う開発環境 ---TTSneo

A development environment with programming in Japanese -- TTSneo

水野貴明 Takaaki Mizuno

# ■情報のページ …………

- 15 Show & News Digest
- **186 NEW PRODUCTS**
- 192 海外・国内イベント/セミナー情報
- 読者の広場/読者プレゼント 193
- 194 次号のお知らせ

連載「XScaleプロセッサ徹底活用研究」「フリーソフトウェア徹底活用講座」、「プロ グラミングの要」、「音楽配信技術の最新動向」は、お休みさせていただきます。

Interface Oct. 2003

# 組み込み技術の総合展示会

# 第6回 組込み システム開発技術展 ESEC

# 北村俊之

組み込みシステムの応用技術が一堂に会する展示会「ESEC」が7月9日(水)~11日(金)の3日間、東京ビッグサイトで開催された。主催はリードエグジビジョンジャパン(株)である。今回で第6回目を迎える本展示会は、国内外の主要企業300社が出展し、昨年を100社近く上回る過去最大規模での開催となった。また、NEC、東芝、ルネサステクノロジ、富士通、インテル、アーム、AMDなど内外の主要な半導体ベンダの出展も話題の一つだった。

今回は展示会場全体に「組込み Linux」、「ユビキタス・ネットワーク」、「ボード・コンピュータ」、「設計・開発サービス/コンサルティング」の四つのゾーンが設置され、より明確な目的意識をもった来場者への便宜が図られていた。とくに今回新たに設けられた「ユビキタス・ネットワーク」は、ユビキタス環境に対応するソフトウェアからハードウェアまでの開発プラットホームを一堂に集め、技術者、開発者の高い関心を集めていたゾーンである。

また、「第12回 ソフトウェア開発環境 展(SODEC)」、「第8回 データウェアハウス& CRM EXPO」、「第5回 データストレージEXPO」も同時開催され、展示会全体としても出展企業600社以上と、過去最大規模での開催となっていた(写真1).



〔写真1〕入り口のようす

# • 組込みシステム開発技術

アイティアクセスでは、組み込み向けミドルウェアの各製品の展示デモを行っていた。暗号製品「C4シリーズ」、Web ブラウザ「NetFront v3.0」などの定番製品をはじめ、ビデオ/メッセージコミュニケータ [Eyeball] なども来場者の関心の高いソリューションであるという。また、モトローラ DragonBall MX1 を搭載した「Linux 開発リファレンスボード」も参考出品されていた。こちらは、MontaVista Linux と GUI 開発ツール、およびメトロワークスの PowerParts が移植されているという。Windows CE.NET を搭載した DragonBall i.MX1 リファレンスプラットホーム「SkyRider」の展示も行われていた(写真 2).



〔写真 2〕 アイティアクセスの SkyRider



〔写真 3〕 ルネサスの SAFE-by-WIRE デモセット

ルネサス テクノロジは、同社のマイコンをベースとした自動車、ネットワークなどの数多くのソリューションと各種開発環境の展示、デモを行っていた。車載用のネットワークソリューションとして「SAFE-by-WIRE デモセット」(写真3)の展示が行われており、今後自動車に20箇所以上搭載される、エアバッグの一括制御を行うためのソリューションとのことだった。

アームでは、最新の「RealView」開発 ツールのデモとして、Multi-core デバッグ やOS Awareness などを行っていた。また、先日発表されたばかりの「RealView Developer Kit for OKIJの展示も行われて いた。また同社のテクノロジを搭載した製 品も数多く出展されており、中でもカネス タの「カネスタキーボード」 (写真4)は来場者の注目を 集めていた.同製品を組み 込んだモバイル端末を机上 に置き.投影された赤色



〔写真4〕カネスタキーボード

キーボードパターン上でタイピングを行うと、センサが指の動きを読み取って文字入力を行うことができる.

# ●「組込み Linux」ゾーン

モンタビスタソフトウエアジャパンは、コンシューマ機器向けの新製品である「MontaVista Linux Consumer Electronics Edition」を始めとする同社の主力製品と、これらを搭載したホーム AV サーバ (NEC)、電話付 Web 端末 (Panasonic)、チャネルサーバ(SONY)などが数多く展示されていた。民生家電機器への組み込み Linux の対応が本格化していることが感じられた。また、パートナーのイーエルティによる組み込み Linux の評価環境「Embedded Linux Riference Kit」の展示と共通プラットホーム戦略の紹介も行われていた。リネオソリューションズでは、同社の組み込み Linux「uLinux」と開発環境「ELITE」を中心とした展示を行っていた。

日進ソフトウェアでは、小型カメラとセンサ入出力を組み合わせるなどの、組み込みLinux 搭載のフィールド用サーバの事例をデモを交えて紹介していた(写真5). また、VisualStudio上でリアルタイムアプリケーションの開発を可能にする開発環境を展示するなど、来場者の関心を集めていた。



〔写真 5〕 日進ソフトウェアの 小型カメラと Linux

# 「ユビキタス・ネットワーク」ゾーン

ブライセンは、Bluetooth プロトコルスタック & SDK、組み込みデータベース「Linter」や組み込み Linux「ELinOS」など同社製品を使用したシステムのデモを多数展示していた。オープンインターフェースでは、組み込み向け Bluetooth プロトコルスタック「BULEmagic3.0」を始め、音楽データから感情を解析する「feel pop box」、IrMCテストツールなどのデモ紹介を行っていた。日新システムズでは、IP電話/VoIP に必要な QoS 技術を備えた「TimeSysLinux」を始め、RJ45コネクタサイズの基板実装タイプデバイスサーバ「XPort」や Linuxサーバをリモートメンテナンス可能なコンソールサーバなど、多彩なソリューションで来場者の関心を集めていた。

## 「ボード・コンピュータ」ゾーン

アットマークテクノは、小型で低消費電力を実現した Linux 対応の ARM7 CPU ボード「Armadillo」を中心に、展示を行っていた.

また、応用事例として、この CPU ボードと Bluetooth を組み合わせたソリューション (写真 6) が展示されており、来場者の注目度も高いとのことであった。ロムウィン (写真 7) では、同社の ROM-Win シリーズに対応した、ファンレス対応のパネル PC シリーズやロムターム II A シ

リーズ、オールインワン CPU ボード の展示が行われていた。 同社のソ リューションを利用すれば、システムを簡単に ROM 化でき、耐環境性に強いシステム構築が可能であることをアピールしていた。



〔写真 6〕アットマークテ クノのArmadillo



〔写真7〕 ロムウィンのブース

# S h o w & N e w s D i g e s t

# 組込みシステム技術に関する ワークショップSWEST5

- ■日時:2003年7月23日(水)~24日(木)
- ■場所:遠鉄ホテルエンパイア(静岡県浜松市)

「第5回 組込みシステム技術に関するワークショップ (5th Summer Workshop on Embedded System Technologies)」,略称SWEST5が浜松湖畔で開催された。このワークショップは,一泊二日の日程で開催され,組み込み技術者による技術発表と交流を深めることを目的としたもの



懇親会のようす

だ。実行委員長の高田広章氏(名古屋大学)など、組み込み関連の著名人をはじめとした300人近い技術者が参加する大規模なイベントとなった。

オープニングセッションでは、RoboCupの実行委員なども勤める松原仁氏(はこだて未来大学)による「災害救助からエンタテインメントまで――未来のITロボットの行方――」と題した講演が行われ、災害救助用ロボットの開発を目的とした「RoboCup-Rescue」の概要と救助技術の現状などが語られた。すでに9/11のテロでは、実際にロボットを用いたレスキュー活動が行われ、状況と用途を限定すれば現状でもロボットは役に立つとのことだった。

また、災害用システムは、「平時から役に立ち、使われるシステムであることが重要」という指摘がなされた。例として挙げられた災害救助支援システムは、平時には観光情報を、災害時には被災情報の提供を行うことにより、平時から役に立ち、なおかつ地理データなどが共用できるとの利点も挙げられた。

今回からはオープニングセッション以外の壇上での一般発表は取り止め、 代わりにポスターセッションとして、各発表者が展示会場で個別に発表を 行うという形式をとった。

(株) ヴィッツの「TOPPERS/JSPカーネル対応統合開発環境」は、Microsoft Visual C++上でTOPPERS用ソフトウェアを開発するための統合開発環境。従来のVisual C++のIDEからクロスコンパイル用のGCC/GDBなどを呼び出し、コンパイル/デバッグなどが行える。現在は

H8/300Hでの動作確認を 行っており、TOPPERSの 対応している80%のCPUを カバーする予定とのことだ。

ほかの発表は「将来の組込みシステムへのOS仮想化技術の応用」(早稲田大学追川修一氏/中島達夫氏)、「ハッシュによるリクエスト判別の高速化を実現したUSB2.0デバイスコントローラの設計」



ヴィッツのTOPPERS/JSP カーネル対応統合開発環境

(東海大学 名野 響氏ほか),「分散型組込制御システムのComponent BasedによるGUI開発ツール」(ユーシステムズ 上野真路氏ほか),「アクティブオブジェクトモデリングのこころ」(日本IBM 藤倉俊幸氏)など.また,(株)SRAによるQt/Embeddedの展示も行われ,同社が国内での販売・サポート業務などを行うことも発表された.

2日目はチュートリアルが行われた.「最近のプロセッサ・アーキテクチャ技術」(東京大学先端科学技術研究センター 中村宏氏)では、Power4 やAlpha 21264などで使われているプロセッサ高速化技術のうち、分岐予測とスレッドレベル並列化技術について解説された.動的分岐予測方式として状態を2ビットで保持する方式は、「2回連続で予測が外れた場合のみ、予測を修正する」ことで、予測成功率を上げる手法である.

「オープンソースによる組込み開発と法的課題について」(イーエルティ 江端俊昭氏)は,GNU GPLをていねいに読み解き,解釈を加えるというもの。GPLは契約書であるにも関わらず著作権表示があるのは,改変を防止するためのものであるということ(著作物であれば,勝手に改変することができない),Linuxなどのローダブルモジュール形式のデバイスドライバがGPLかどうかは,さらに議論が必要になるが,デバイスドライバのほとんどの機能をBIOSで実現し,デバイスドライバ(GPL)からBIOS(非GPL)を呼び出すことでこの問題を回避することが可能,などの興味深い内容だった.

セッション, チュートリアルなどでの交流のほか, 一泊二日での開催ということもあり, 夜通し議論を行う参加者も多く, 技術者の横のつながりを広げるイベントであった.

# 米I-Logix社がRhapsody製品群の 日本における営業体制を強化

- ■日時:2003年7月11日(金)
- ■場所:ロイヤルパーク汐留タワー(東京都港区)

UML (Unified Modeling Language) に準拠し、MDA (Model Driven Architecture) をサポートしたグラフィカル開発ツール「Rhapsody」などを開発・販売している米I-Logix社 (http://www.ilogix.com/) CEOの Gene Robinson氏、Director、iNotion MarketingのJim McElroy氏が来日し、Rhapsody製品群の営業体制強化などを発表した。具体的な内容は、東芝情報システム(株)との販売提携、キャッツ(株)とのアライアンス、日本におけるサポートエンジニアの採用である。

Robinson氏から日本の現場組み込み技術者へ向けたメッセージ――「私



I-Logix社CEOのGene Robinson氏

はいまの仕事の前にはEDA系の仕事をしていたが、あるきっかけで組み込み系の技術者が、厳しい開発サイクルや、コードサイズの制限などの厳しい情況にさらされていることに気付かされた、Rhapsodyを開発効率化のために役立ててほしい」



I-Logix社Director, iNotion Marketingの Jim McElroy氏

# アンソフト・ジャパン,HFSS V9.0発売

- ■日時:2003年7月7日(月)
- ■場所:アンソフト・ジャパン(神奈川県横浜市)

アンソフト・ジャパン (株) は,高周波3次元電磁界解析ツールHFSS V9.0を発売した.HFSS (High-Frequency Structure Simulator) は, 米国Ansoft社が開発した高周波デバイス設計ツール。各種デバイスコンポーネントの動作原理であるマックスウェル電磁界方程式を数値シミュレーションにより解き、各種デバイス特性を算出するもの。価格は $\pm 5,900,000$ ~。

# ハッカ。 常識的見聞録

34

# 広畑由紀夫



☆ 今回は、NTT 東日本でも始まった「フレッツ ADSL モア II と家庭内 LAN の無線化について話していきます。

# ● ADSL の高速化

7月22日にサービスを開始したフレッツ ADSLモアII サービスへ、フレッツ ADSL8M から契約を変更することになりました。筆者の環境では局から若干離れているため、事前情報からもあまり速度の向上は望めなかったのですが、より快適なインターネット接続環境を手に入れるべく、ADSLモデムやルータの取り替えなど家庭内 LANの接続見直しを含めて、これを断行することにしました。

結果は、下り速度の向上こそ 10%程度でしたが、上りは 1Mbps まで上がり、下りの速度向上がそれほどなかったにも関わらず、以前よりも体感速度が向上しました。さらに、上りでの複数のリアルタイムネットワークアプリケーションからの接続タイムアウトの確率も減り、複数のコンピュータおよびゲーム機器での平行プレイでの障害発生率が下がったようです。

# ● 無線 LAN について

最近では 802.11g の正式認可によって、802.11b では物足りなかった無線 LAN の速度の向上と安定度の保証が進んでいます.筆者が必要とするマルチセッション接続対応機器では 802.11g 内蔵機器が現在まだ発売されていないため、別途アクセスポイントを立てたり、用途によっては 802.11b を使用することなどで使い分けています.

802.11a に関しては、速度的には 802.11g で代用できますし、WiFi 認証も現在では与えられています.既存インフラが 802.11a である場合は考慮する必要があるものの、新規もしくは 802.11b の拡張であるならば、802.11g を考慮しておくだけで十分だと思われます.

# ● 認証設定

無線 LAN では物理ケーブルを使わずに通信を行うため、暗号化なしや承認なしの接続は家庭での使用においても止めておきたいところです。「MACアドレスフィルタリング」、「暗号化設定」ぐらいは行っておきましょう。

暗号化は、ネットワーク内を流れるバケットを簡単には覗かれないようにしてくれます。完全に安全とはいえない部分も存在しますが、少なくとも非暗号化データを垂れ流すよりは安心できます。また、MACアドレスフィルタリング設定を行い、無線 LANアクセスポイントへの接続を特定のネットワークカードからに限定します。これによって、他人によるネットワークの無断使用を防止し、無線 LANから有線 LANへ勝手にアクセスされることを防止します。

# ● 使用する無線チャネル

無線 LANでは、使用するチャネルを設定します. このチャネルに

よって同一チャネル以外のアクセスを受け付けないようにし、エリアの重なる異なる無線 LAN での通信競合を緩和します.

注意しておきたいのは、802.11g 以前の802.11b 専用で発売されていた一部の無線 LAN カードのドライバに不具合があるらしいことです。 筆者が体験した不具合は「使用するチャネルに  $12 \sim 14$  チャネルを割り当てると、自動的に 11 チャネルとして働き、しかも 11 チャネルの無線 LAN アクセスポイントと正常に通信が開始できない」という現象です。

# 設定の手順

上記のような事柄から、導入設定のお勧め手順を考えてみましょう。手順としては、無線 LAN を設定し、それぞれにおいて無線 LAN 端末側から設定を反映したときにアクセス可能であるかどうかを確認していきます。とくに「WEP 暗号化設定などを行った直後にアクセスできなくなった」というケースが多いため、WEP 設定は最後にまわし、それ以前の接続を確認しつつ徐々にセキュアな設定にもっていくと失敗が少ないと思われます。

- ① まず使用するチャネルを自動のままで使用するか、使用するチャネルを設定する
- ② MACアドレスフィルタリングを使用し、アクセスするネットワークカードを指定する
- ③ SSID を決めて、無線 LAN ネットワークの名前を指定する
- ④ WEPの暗号化の有無、もしくは強度を設定する

# ● 無線 LAN アクセスポイント内蔵ルータを選ぶ

筆者が今回選んだのは、NTT東日本より発売されている無線 LAN 内蔵ルータ、FT6200Mです.そのため 802.11g 用のアクセスポイントを別途購入しましたが、複数の無線 LANネットワークからのインターネット接続および有線 LAN の接続ともに利用できるようになりました.今後も高速な有線 LAN と、有線 LAN ほどではないが比較的高速になってきた無線 LAN との併用で、家庭内インターネット接続はさらに普及していくと思います.

ノート PC のバッテリ駆動時間も増えましたし、みなさんもケーブルから解放されたノート PC を屋外に持ち出しつつ、のんびりとネットワークを楽しんでみませんか?

ひろはた・ゆきお OpenLab.



フジワラヒロタツの現場検証(72)〈最終回〉

# 現場検証。最後の挨拶

筆者のデイバッグには、ごちゃごちゃと物が入っています.古い Palm 互換機. あと1年はもたせようと決意している1年半前の「最新」ノートパソコン. 図書館で借りて、濡れないようにお手製カバーをつけた心理学の本. さまざまな PCMCIA 規格のカード. 携帯用に、整腸剤を入れたお菓子ケース(すぐお腹がくだるので). PCケースを開けていじりまわす際になぜか手から血が出ていることが多いため、重宝するバンドエイド. もしものとき(?)に役立つソーイングキットなど、など. このデイバッグさえもっていれば、突然いつどこに行っても困らないように.

長く続けさせていただき、さまざまなエンジニアとしての「現場」にこだわってきたこの連載も、そろそろデイバッグをかついで立ち去る時期が来たようです.ここ10年ほど「ベンチャー」という横文字が付けられてきた中小零細企業のエンジニアとして、現場で思ったことや、感じてきたことを書いてきました.

連載中には、開発が修羅場の時期も多々ありました.「しょうもない」マンガとはいいながら、それなりに時間をとられるもので、筆者としては、どんなに忙しくても開発が最優先、そんなときには、泣きながらオチを考えておりました.

この間,筆者の仕事の内容も,社会と技術,自分の変化に呼応して移り変わってきました。さまざまな新しい技術に対応することよりも,組織の運営やプロジェクト管理,営業に時間を費やすことが多くなったのは,まったく,年齢のせいでしょうか.

けれど、そういった分野にも面白いものはいろいろあるもので、たとえば、見積もりのための方法論であるファンクション

ポイント(FP)法などは、大きなプロジェクトだけではなく、組み込みにも応用できるらしいということを聞きかじったりもしました。これはもっと詳しく調べてみようと思いながら果たせないままで、まったく自分の勉強不足には恥じ入るばかりです。

技術についても、オブジェクト指向でいうデザインパターンの本も読んでいないのに、より人間臭い、失敗についてのエピソード満載の、『アンチパターン』を面白がったりしていますし、最近、エクストリーム(XP)プログラミングという開発手法を知るにつけ、プログラミングの問題を解決するには、ニンゲン系をいじり回すことがカギになる、との感をますます強くもってきました.

当連載は結局、仕事が忙しいという愚痴と、技術をフォローアップするのがたいへんだ、という悲鳴に終始してきたような感がありますが、その中に、もしそういったニンゲン系の話をある程度語ることができたとすれば、読者の皆さんに支えられてのことと感謝しています。

シャーロックホームズに「最後の挨拶」という一編があり、ホームズがワトスンに「東風が来るね」というくだりがあります。 受託開発の現場と、かつて「マイコン」を担ってきた世代にも、さまざまな厳しい風が吹いてきているような気がします。

本当に、思いのほか長く、この文章付きマンガ(マンガ付き 文章?)を続けることができたのは、望外の幸せでありました と、デイバッグを背負い直しつつ、お別れの挨拶といたします。

藤原弘達 (株)JFP エンジニア,漫画家

Interface Oct. 2003

特 集 RISCプロセッサの基礎から最新プロセッサのしくみまで

パイプライシと

パースカラ

# Contents

Prologue

コンピュータの誕生からプロセッサの発展まで

マイクロプロセッサの歴史

Chapter 1

プロセッサの構成要素と動作の基本

もっとも基本的なプロセッサ高速化技法

実際のプロセッサはどのように動いているか Chapter 3

パイプライン処理の実際

システムオンチップ時代のデバッグ手法 エミュレーション機能の基礎

Chapter 4

1クロックで複数の命令を同時に実行する

並列処理の基本と

Chapter 5

実際のプロセッサではどのように実装されているか

- パースカラの実際

携帯機器ではとくに重要な

低消費電力技術の原理

特集執筆:中森

パソコンはいうに及ばず、情報家電から白物家電まで、現代社会 はプロセッサなしには成り立たない。エレクトロニクス技術者とし て、プロセッサの理解は、必須項目といってよいだろう。そこで、 今月号と来月号の2号にわたり、現在の最新プロセッサでも主流と なっているRISCプロセッサに焦点を当て、徹底的に解説する.

RISCプロセッサの共通するアーキテクチャとしては、ロードスト アアーキテクチャ、パイプラインを用いた1クロック/1命令実行、遅 延分岐などがある。パイプラインの基本は1クロック/1命令だが、さ らにプロセッサの高速化を推し進めるには、1クロックで複数命令を 同時並列に実行するという方法が考えられる。これがスーパースカ ラである。

前編となる今月号では、このパイプライン処理とスーパースカラ について、もっとも基本的な構造のプロセッサから最新プロセッサ まで、実際の各種アーキテクチャのプロセッサの事例を示しながら、 徹底的に解説する。

# はじめに

そもそもマイクロプロセッサ (MPU) とは何なのだろうか. 多くの人は、MPUが Micro Processing Unit (小型処理装置) の略語であり、コンピュータの中心的な動作を制御する LSI であることを知っている。その意味で CPU (Central Processing Unit:中央処理装置)と呼ばれることもある。本特集では一部を除き MPUと呼ぼう。

では、なぜ MPU に 8 ビット、16 ビットあるいは 32 ビットという種類があるのか、なぜ 16 ビット MPU よりも 32 ビット MPU のほうが処理性能が優れているのか、という点について知っている人は意外に少ないのではないだろうか?

これをひもとくには、まず大型計算機の歴史から振り返ってみる必要がある。歴史を探ることで、MPUの未来もおのずから見えてくるのではないだろうか。

コンピュータ(計算機)という発想はいつから?

計算の機械化は古くから考案されてきた. 16世紀にフランスの数学者のパスカル (Blaise Pascal) が考案したパスカリーヌ (Pascaline) をはじめとして、ドイツの数学者のライプニッツ (Gottfried Wilhelm Leibniz) がパスカリーヌを拡張した計算機を完成させている.

現在の感覚に近いコンピュータを最初に構想したのは、19世紀のイギリスの数学者であるバベッジ(Charles Babbage)といわれている。彼は1819年頃から、高信頼度の数表を階差法により作成する歯車式の階差機関の作成に着手した。1832年には試作機が作成されたが、政治的な理由で階差機関の開発は成功しなかった。その直後、階差機関の計算能力を上げる目的で、バベッジは解析機関を発案した。その複雑なメカニズムを実現するために、データ(記憶領域)と演算を分離することが考えられた。データから独立した演算器は、一連の指令(プログラム)を与えることで、種々の計算に対応できた。これがプログラム制御のはしりである。階差機関は階差法という計算に特定された専用マシンであったが、解析機関はある程度の汎用性をもっていた。これをもって解析機関を最初のコンピュータとみなす向きもあるが、プログラム内蔵方式ではなかったし、条件分岐機構をもっていないという意味では、コンピュータでないという意見もある

その後、バベッジの業績は何人かの研究者に受け継がれたが、 どれも試作程度で終わっている。バベッジ以後、1940年代まで コンピュータ開発の表立った動きはなかったというのが定説で ある. この期間は100年の空白といわれている.

もっとも、これは米国中心の史観である。実際には、1930年代に機械式やリレー式がドイツのツーゼ (Konrad Zuse) らによって研究/試作され、またシュレイヤー (Schreyer) やアタナソフ (John V. Atanasoff) らが真空管方式によって開発を始めている。ツーゼのコンピュータは「 $\mathbf{Z1}$ 」、アタナソフのコンピュータは  $\mathbf{ABC}$ 」として歴史に名を残している。

チューリング (Alan Turing) は 1936 年にチューリングマシン に関する論文を発表し、これが現代コンピュータの基礎理論となっている。チューリングもまた、第二次世界大戦中に暗号を解読するための「ボンベ」というチューリングマシンを応用した機械(コンピュータの原点)を開発している。ボンベはリレーを使用していたが、真空管を使用した電子計算機もチューリングの提案で開発された。これも暗号解読用である。

リレーは電磁石でスイッチを ON/OFF するものだが、電気で同様の処理を行う真空管を使用すると 1,000 倍近い計算速度を得ることができる。これは 1943 年に COLOSSUS という計算機として実現している。また、これはイギリスの話であるが、アメリカでも同時期に真空管を使用した ENIAC (Electronic Numerical Integrator and Computer) という計算機が開発されていた。 ENIAC は実戦には間に合わなかったが、 COLOSSUSは戦時中稼動していた唯一のコンピュータとして後世に名を残している。それは戦後も 30 年にわたって諜報活動に活用されるが、当時は機密事項として関係者が知るのみであった。

# ● アタナソフのコンピュータ -- ABC マシン

1970年頃までの定説では、世界最初のコンピュータはモークリー (John W. Mauchly)とエッカート (J. Presper Eckert) およびゴールドスタイン (Herman H. Goldstine) によって 1945年に開発された ENIAC ということになっていた。その説に一石を投じたのが、1937年からアタナソフとベリー (Clifford E. Berry)の開発した ABC (Atanasoff-Berry-Computer)マシンである。これは、ガウスの消去法を想定した真空管式の計算機で、1942年にはほとんど完成していたといわれる。現在では、この ABCマシンこそが ENIAC に先立つ世界最初のコンピュータといわれることが多い。

もともとアタナソフの業績は世間から忘れ去られていた。それを白日の下に引き戻したのは、1960年代に始まった、ENIACの基本特許に関する係争である。この裁判でENIAC特許が無効になったが、その根拠の一つとしてモークリーがアタナソフからENIACの基本原理を得ていたということが挙げられた。

36 Interface Oct. 2003



事実、1941年にモークリーはアタナソフを訪問して ABC マシンを見学していた。かくしてアタナソフの名前は一躍クローズアップされることになる。しかし、ABC マシンは 29 変数までの連立一次方程式の解法機にすぎず、プログラム内蔵という観点から見てもコンピュータと呼ぶにはふさわしくない。

# 真空管のコンピュータ

初期のコンピュータは、人間が手計算でやっていてはとても 終了しないほど多量の計算を高速に行わせるために開発された。 昔はそれほどの需要があったわけではないが、第二次世界大戦 の頃になると大規模な計算の必要性が顕在化してきた. その主 たる用途は軍事目的であったことは否めない。 現在のコン ピュータのはしりは1945年にペンシルバニア大学で作られた ENIACといわれているが、これは大砲の弾道計算をするため に作られたコンピュータである. その処理能力は現在のコン ピュータと比べてはかわいそうなくらい低く、どちらかという とプログラム電卓といった感が強かったようだ. ENIACは、あ る程度のプログラムを内蔵することもできたし、条件分岐機構 ももっていたので、最初のコンピュータという栄誉を受ける資 格は十分にある。ただし、これを主張する学者は COLOSSUS の存在を無視しているようにも思える. ただ、COLOSSUS は 暗号解読専用という観点から、汎用コンピュータとは認めても らえないのだ.

1989年、米国のスミソニアン協会がアメリカ歴史博物館でコンピュータ開発の歴史展示を試みたとき、コンピュータの発明者はモークリーとエッカートになっていた。それが政治的圧力でうやむやな表現に変更された。その中で、アタナソフは最初のコンピュータを発明したが動作させることはできなかった、と説明されたという。

ENIAC の本体は、30m × 90m × 3m の筐体の中に 18,000 本の真空管と 10,000 個のコンデンサを詰め込んだものである。このため、ENIAC を設置するためにはまるまる一部屋分のスペースが必要だった。また、多くの真空管を動作させるために機関車並みの電力が必要だったという。それでも、電気式の真空管を使用するため、計算機の処理能力は機械式のリレーに比べて飛躍的に向上した。しかし、真空管を使っているために「図体がでかい」、「熱い」、「壊れやすい」というのが当時のコンピュータの常識だったようだ。この真空管の問題を何とかしない限り、コンピュータの発展はありえなかった。

# フォン・ノイマンに対する誤解

フォン・ノイマン (Jhon von Neumann) は、今日のコンピュータアーキテクチャの基礎を創造した人物として広く知れ渡っている。事実、プログラム内蔵を基本とする今日のコンピュータは「ノイマン型」といわれている。しかし、これはモークリーやエッカートの名誉を著しく傷つけるものである。

1944年の初め、ENIACの設計が始まってから 18 か月が過ぎた頃、フォン・ノイマンはゴールドスタインと会う機会を得た. そこで、フォン・ノイマンはゴールドスタインが関わっていた

「写真A」ミシガン大学に展示されている ENIAC (写真提供: 近藤和彦氏)



現在進行中のENIACの計画に非常に興味を覚えた。当時フォン・ノイマンは、原子爆弾を開発するマンハッタン計画の顧問をしていたが、この戦争に役立ちそうなコンピュータのことは知らされていなかった。これは、ENIACのスポンサーともいえる国防研究委員会(NDRC: National Defense Research Committee)がENIACを信用しておらず、取るに足りないものと考えていたからである。しかし、フォン・ノイマンは非常に興味を覚え、1944年の9月にENIACの開発現場を訪れ、ENIACの秘密情報へのアクセスが許された。

さて、ENIACにはプログラミングが難しい、メモリが少量しかないという欠点があった。関係者の多くは ENIAC の完成のかなり前から、後継機種の EDVAC(Electronic Discrete Variable Automatic Computer)の議論を始めている。そして、1945年3月、フォン・ノイマン、モークリー、エッカート、ゴールドスタインらが EDVAC の設計に関して議論した記録が、いわゆる「EDVAC レポート」として、フォン・ノイマンの単独名で、機密事項であるにもかかわらず、世界のコンピュータ技術者の間に広く流布された。フォン・ノイマンが EDVAC の設計に参加する前にプログラム内蔵方式は考案されていた。しかし、この文書により、フォン・ノイマンがプログラム内蔵方式のコンピュータの発明者として誤って伝わってしまったのである。フォン・ノイマンは発明者ではないが、プログラム内蔵方式を論理的に明確にして発展させた業績は認めるべきであろう。

EDVACは、関係者間の意見の対立により大幅に開発が遅れ、頓挫してしまう。一方、フォン・ノイマンはプリンストン大学で新しいコンピュータの開発を指導することになる。そんな中、世界最初のプログラム内蔵方式のコンピュータとしての栄誉を勝ち取ったのは、EDVACの影響下にイギリスのケンブリッジ大学でウィルクス (Maulice Wilkes)により製作され、1949年5月に稼動を始めた EDSAC (Electronic Delay Storage Automatic Calculator)である。この名称は EDVAC を意識して付けられたという。なお、ウィルクスはマイクロプログラミングの提唱者

Interface Oct. 2003

としても有名である.

さて、これ以後も計算機の試作は星の数ほど行われ、IBM などの大型計算機やスーパーコンピュータの開発へとつながっていくのだが、その歴史を追うことは筆者の意図ではない。今後はマイクロプロセッサの進歩を主として見ていこう。

# トランジスタが登場した!

コンピュータにとっての朗報は、1947年も終わりに近付いたクリスマスの2日前に訪れた.ベル研究所のウィリアム・ショックリー(William Shockley)、ジョン・バーディーン(John Bardeen)、ウォルター・ブラッテン(Walter Brattain)によってトランジスタが発明されたのだ。言うまでもなくトランジスタは、半導体産業において20世紀最大の発明である。トランジスタは真空管と違って熱をもたないし、壊れにくく、真空管より高速に動作する。そして、サイズが小さいのがなによりの利点だった。このトランジスタは、ラジオや補聴器など多くの電子機器の中心的デバイスとして確固たる地位を築いていくことになる。

当然,トランジスタを用いたコンピュータも作られた. FORTRAN や COBOL といった高級言語のコンパイラが登場したのは、トランジスタのコンピュータが全盛になる 1950 年代の後半から 1960 年代にかけてのことだった。この時期の代表的なコンピュータとして、IBM の 7070 や 7090 がある。まだ、マイクロプロセッサは誕生していない。

さて、トランジスタを用いてコンピュータを作る場合、最大の問題点は回路規模が大きく複雑であるということだった.数百ものトランジスタやコンデンサをハンダ付けしていく作業は人間の手によっていたが、それでいて十分な信頼性を得るのは至難の技だった。その障壁を乗り越えてコンピュータを作ったのだから、当時のコンピュータメーカーの頑張りには脱帽する。しかし、力まかせに作るコンピュータにはおのずと限界がある、人類には理論的には可能であっても、実装技術の未熟さゆえに到達できない夢がいくつもあったのだ。

〔写真 B〕初のマイクロプロセッサ 4004 (写真提供:嶋正利氏)



# • 集積化の時代

コンピュータにとって第2の転機は、1959年に訪れた、テキサス・インスツルメントのジャック・キルビー(Jack Killbey)とインテルの創始者の一人であるロバート・ノイス(Robert Noyce)が、シリコンウエハ上に抵抗やコンデンサを作るというアイデアを実現させたからだ。これがIC(集積回路)の誕生である。それまでは構成要素が独立した多くの部品であったため、それらを接続する困難さが生じる。それならば、いっそのこと、一つのチップに構成要素を作り込んでやれば接続の手間が省けるばかりでなく、非常に小型化できるというのがその基本的なアイデアである。もちろん、思い付きだけでICが製造できるわけではないが、とにかく、数々の製造上の困難を乗り越えた奇跡のチップとしてICが誕生した。

そして、ICが登場してから 10年後の 1969年、人類は月面上に小さいけれど人類にとっては大きな一歩を印すことができるようになった。あのアポロ計画である。しかし、合理的なアメリカ人が道楽(?!)で月まで行くわけはない。その背後に、宇宙の軍事利用という暗い影を宿していたことは厳然たる事実である。しかし、その技術が民間用に転換されてきて、われわれ一般人もその恩恵に預かることができたのは一筋の光明かもしれない。IC の初めての応用例は補聴器だったというし、IC がなければ現在のように信頼性の高いテレビ、ビデオ、DVDプレーヤなどの AV 機器を手にすることもなかったはずである。

# マイクロプロセッサの鼓動

マイクロコンピュータの MPU, すなわちマイクロプロセッサの誕生には日本が大きく関わっている. なぜなら, マイクロプロセッサの物語は東京に端を発するからである.

1968年、日本の事務機器メーカーであるビジコン社は画期的なプリンタ付き電卓を作った。この電卓はプログラムを ROM から読み出して実行するという、現在のコンピュータに近い形式を採用していた。しかも、この電卓は ROM の内容を変更するだけでまったく別の電卓を作ることができるようになっていた。

1969年に入ると、電卓の高性能化、多様化、低価格化、高信頼化などの要請から、電卓を LSI 化する計画が生まれた. しかし悲しいかな、日本には電卓程度の複雑さをもつ回路を LSI 化する技術すらなかった. そこでビジコンは、インテルに援助を求めた. そのときインテルは、ビジコン側の示す LSI の規模が他社の電卓用 LSI に比べて大きい(約16個の異なるチップを使用する)ので商売にならないと判断し、代わりに 4 ビットのMPU というアイデアを提示してきた(本音はチップ 1個分の開発コストしかなかった). これは、電卓のプログラムに使われていた命令をもっと低レベルの機械語レベルに引き下げて、汎用性をもった LSI をねらったものである. ビジコンはもともとプログラム方式の電卓を作っていた経験から、この新しいアイデアをすんなりと受け入れることができた. 結果としてビジコンとインテルの折衷案で、世界初の 4 ビット MPU が作られることになったという.



電卓用のLSIに見られるように、当時のLSIの多くはカスタムデザイン(固有の目的のための設計)によって作られていた、特殊な目的をもったLSIを数多く短期間に製造していくためには、プログラム可能な汎用LSIというアプローチは非常に有用な解答だった。これがゆくゆくは「部品としてのコンピュータ」という市場を産んでいくことになる。

今ではインテルの主要製品となっている MPU であるが、当初インテルの幹部はその将来性に気付いてなかった。電卓の部品という認識で、メモリ事業が主体のインテルにとってはサイドビジネスの一環でしかなかった。MPU がインテルの未来をもたらす存在であることに気付くのは、発表から 15 年くらい経った後だという。

インテルが 4004 の所有権をもつようになるのは、積極的な理由からではなかった。4004 の開発中に電卓事業が不振になり、ビジコン側が契約料の大幅値下げを要求してきた。インテルは、電卓市場以外での4004 の外販権を無料で提供することを条件に、その要求を飲んだ。

かくして、1971年11月15日、インテルは4004を世界初のマイクロプロセッサとして発表した。これがマイクロプロセッサの誕生である。当時のインテルの最高経営責任者は、「人類史上でもっとも革命的な製品の一つ」とコメントしたらしい。しかし、多くの人々は4004のコンセプトを理解できず、インテルを脅威と思う者はほとんどいなかった。革新的なものの最初は、おしなべてこんなものかもしれない。

4004 は 750 KHz のクロックで動作し、1 命令の実行には最低 8 クロック必要だった。これは、1 クロック実行が当然の、現在の RISC 技術から見れば隔世の感がある。4004 のクロックに 関しては、インテルの公式資料では 108 KHz となっているが、これは誤りである。4004 のニュースリリースで命令の実行速度が 10.8  $\mu$ s となっていたのを勘違いしたものと思われる。この後に登場する 8008 の動作周波数も 200 KHz となっている文献が多いが、500 KHz の誤りである。

# ● マイクロプロセッサの展開

1972年4月1日、インテルは4004のアーキテクチャを拡張して8ビットデータ(文字データ)を扱えるようにした8ビットMPUの8008を発表した.動作周波数は500KHzだった(後に800KHz品も開発される).8008はテキサスの端末メーカーであるデータポイント社からの受注である.しかし、データポイント社が契約料を払えなかったため、インテルは8008の命令セットの使用権とチップの外販権を獲得する.のちのx86命令セットの萌芽である.

8008 は 4004 の後継と説明されることが多いが、4004 の開発中にその技術者を引き抜いて開発したという。その意味で 4004 と同世代の兄弟チップである。

そして 1974年,8008の改良版である,同じ8ビット MPUの8080 が発表されるにあたって,マイクロプロセッサが本格的に市場に受け入れられるようになった。そして人々は,マイクロ

プロセッサによって多くの製品に知能を与えることができると 考え、無数の新しい応用を夢に描いていった.

約55年前,部屋いっぱいの設置場所と機関車並みの電力を必要としたコンピュータが小指大(現在の規模では親指大というほうが適切か)のマイクロプロセッサへと凝縮されることで,コンピュータは日常生活の基本的な枠組みの中へ浸透していくようになった。

とはいえ、マイクロプロセッサの誕生が電卓用 LSI をきっかけとしたように、初期におけるマイクロプロセッサの役割は、既存の制御機器の置き換えが主目的だった。この場合、とにかく動くことが第一で、プログラムの生産性や性能は2の次だった。

小型で動けばいいという時代を経ると、当然のことながら、マイクロプロセッサは性能を要求されることになる。そこで、マイクロプロセッサは8、16、32とビット数を増やしながら大型計算機の進歩を大急ぎで追いかけていった。そして、現在の32ビットマイクロプロセッサの処理能力は大型計算機の処理能力に近づき(ある意味では凌駕し)、コンピュータごとに専用のMPUを使用していたミニコンのMPUすら駆逐してしまった感がある。また、その応用分野もエンジニアリングワークステーション、画像処理システム、音声処理システム、ロボット制御、プロセス制御、人工知能システムなどという多種多様の分野に広がるようになった。

● もし……の世界,世界最初のMPUは日本製だったかも しれない

上述のとおり、MPUの歴史は、インテル社 4004の 1971年の発売に始まったといわれている。しかし、4004に遅れること数か月、日本でも  $\mu$  PD700という 2 チップ構成の MPU が開発されていることはあまり知られていない。これは、シャーブがコカ・コーラ社から依頼を受けて論理設計をし、NEC が製造した4 ビットのプロセッサである。シャープは、最初、三菱電機に製造を依頼したのだが、これが見事にコケてしまう。そして、NEC にお鉢が回ってきて日の目を見たわけだ。もし、シャープが初めから NEC に依頼をしていれば、世界最初の MPU は日本製ということになっていたかもしれない。

 $\mu$  PD700 は、その後 NEC が権利を買い取り、1チップの  $\mu$  COM4 として発売された。この MPU は電子式キャッシュレジスタを中心に広く応用されたという。筆者は命令セットの詳細をよく知らないが、どちらかといえばインテルよりもモトローラの MPU に近く、使い勝手が良かったと聞く。

4ビット MPU は、その後の低価格化の要求から、1チップマイコンが市場の中心になっていき、家電製品に採用されるようになる。この分野は日本の独壇上である。1チップマイコンは4ビット、8ビットと独自の進化を遂げていくが、16ビット以降になるとアメリカ製のメジャーなMPUに置き換えられていく運命をたどった。

日本の半導体史においては、国産第一号のマイコンは 1973 年に発表された東芝製の TLCS-12 ということになっているもの

39

Interface Oct. 2003





もある. これは最初から 12 ビットプロセッサであったことが 画期的である. インテルでは 8 ビットの 8008 が発表されたばか リである. さて、TLCS-12 は米国フォード社の思惑が絡んで開発された. 1970 年に米国では自動車の排ガスを規制するマスキー法が成立し、自動車メーカーは対応を迫られていた. 東芝とフォードは協力してエンジン制御の自動化をマイクロプロセッサに託したのだ.

# • RISC の台頭

1980年頃、米スタンフォード大学とカリフォルニア大学のバークレー分校において RISC の研究がなされていた。RISC とは Reduced Instruction Set Computer (縮小命令セットコンピュータ) の略で、命令体系を単純化することで、それを実行するハードウェアも単純化し、高い動作周波数で高性能を得るという思想に則ったコンピュータのことである。スタンフォード大学やバークレー校の研究もその例から漏れていない。その共通するアーキテクチャは次のようなものだった。

- •ロード/ストアアーキテクチャ
- ●パイプラインを用い、命令を1サイクルで実行
- 遅延分岐

これは、現在の RISC チップにみられる特徴でもある. RISC では、インタロック (パイプラインのステージ間の待ち合わせ) などの複雑な制御をハードウェアで行わないことが基本である. それによって、ソフトウェアが複雑になってもハードウェアをできるだけ簡単にすることを第一としていた. これは、コンパイラ技術の劇的な進歩を呼んだ. まがりなりにも、RISC という MPU が使い物になることが世間に認められたのは、コンパイラ技術の向上によるところが大きい.

優れたコンパイラ技術に支えられた RISC の性能は、驚くべきものだった。たとえば、MIPS の最初の RISC である R2000 は 1986 年に発表されたが、それを採用した SGI の GWS (グラフィクスワークステーション) はわずか 8MHz という低い動作

周波数にもかかわらず、当時の32ビットMPUを採用したEWS (エンジニアリングワークステーション)以上の性能を発揮していた。RISC の高性能は徐々に世間に認められるようになり、現在ではほとんどすべてのMPUがRISC になっている。インテルやAMDが開発しているx86プロセッサも命令体系自体は従来どおりのCISC のものを採用しているが、その中身はRISC技術を最大限に採用して高速化を実現したものだ。

# まとめ

原稿執筆段階ではもっと長かったのだが、本編がなかなか始まらないという声もあるので、プロローグはここまでとしよう.

人類は、その夢と理想をマイクロプロセッサという数ミリ角のチップに詰め込んできた。約30年前に初めて発表されたマイクロプロセッサは4ビットの処理能力しかなかったが、マイクロプロセッサは8ビット、16ビット、32ビット、64ビットと性能向上を達成してきた。いま、コンピュータの世界では32ビットが常識で、64ビットへの転換期にある。

ここ数年の動向を眺めていると、かつての大型計算機の MPU は EWS の MPU に駆逐され、その EWS の MPU は (POWER や SPARC が気を吐いているものの) PC の MPU であった x86 系 MPU にとって変わられようとしている。これは PC も EWS も性能差がなくなってきていることを意味する。 MPU の発展は、始まったばかりなのか絶頂期なのか……神ならぬ身の知る由もなし。

アカルサハ ホロビノ姿デアラウカ 人モ家モ 暗イウチハマダ 滅亡セヌ

太宰治『右大臣実朝』より

## 参考文献

- 1) T・R・リード、『チップに組み込め!マイクロエレクトロニクス革命をもたらした男たち』、草思社、1986年
- 2) 嶋正利,『マイクロコンピュータの誕生 わが青春の4004』,岩波書店, 1987年
- 3) 星野力,『だれがどうやってコンピュータを創ったのか?』, 共立出版, 1995年
- 4) 伊藤智義, 久保田眞二, 『BRAINS コンピュータに賭けた男たちー(1)』, 集英社, 1996 年
- 5) 嶋正利, 「技術開発と教育」, 『Interface』, 2002 年 6 月号

なかもり・あきら フリーライタ



中森 章

プロセッサって何だろう。専門書や教科書を読んでも難しそうだな。しかし MPUって、そんなに複雑なものだろうか。じつは、その背景にある考え方は、単純なのではないだろうか。直感で理解できたら嬉しいな。それが、今回の特集のテーマである。まずは、MPUの基本的な動作について解説する。

# 1 MPU の構成要素

現代のMPUはフォン・ノイマン型と呼ばれる。これはプログラム内蔵方式のことであり、フォン・ノイマンが提唱したとことになっているが、最近ではそれは誤りとされている。フォン・ノイマン型とかフォン・ノイマンボトルネックという言葉はやがて消滅するかもしれないが、ここでは慣例にしたがっておこう。

典型的な MPU は、「記憶装置」、「命令やデータを取り込むしくみ」、「命令実行を制御するしくみ」、「データを加工(処理)するしくみ」を基本的な構成要素とする。また周辺機器とデータをやりとりするための「入出力処理」というものもある。**図1**に典型的な MPU の構成要素を示す。

● プログラム内蔵方式には記憶装置が必須 プログラム内蔵方式は、プログラムを内蔵するための**記憶装** 置が必須である。ほかの構成要素は MPU に内蔵されるが、記 憶装置は、基本的には、MPU の外部にある。この記憶装置は



メモリと呼ばれ、その構成により ROM (Read Only Memory) と RAM (Random Access Memory) に大別される.

メモリとは、複数の保存場所の集合で、各保存場所には位置を特定するためのアドレスが付けられている。そして、あるアドレスを指定すると、それに対応する保存場所の内容が外部に読み出されるという装置である。RAMでは、アドレスと新しいデータを与えることで、アドレスで指定される保存場所の内容を変更することもできる。図2にメモリの概念図を示す。

メモリ内の保存場所の大きさ(ビット数)はいくつでもかまわない。しかし、最近のメモリは一つの保存場所の大きさを8ビット(=1バイト)とする**バイトアドレス方式**が主流である。つまり、一つのアドレスを与えると1バイトのデータを得ることができる $^{\pm 1}$ .

# 〔図2〕メモリの概念図



注1:メモリによっては保存場所の大きさが 16 ビット (×16 という), 32 ビット (×32 という) のものも存在する。 どちらかといえば、16 ビットが一般的かもしれない。だたし、その場合もバイト単位での書き込みは可能になっている。

Interface Oct. 2003

しかし、MPUの扱うデータは1バイトのみとは限らない、ハーフワード(16 ビット)、ワード(32 ビット)、ダブルワード(64 ビット)といったデータ  $^{\pm 2}$  も扱う。おそらく、もっとも多用されるデータ長はワード(16 ビットまたは32 ビット)であろう。「 $\circ$  のワード」という表現は、ワードが基準になっていることを示す証拠である。このため、MPU はある程度まとまったビット数(あるいはワード単位)のデータをメモリから取り出すほうが効率的である。このため、MPUとメモリ間のデータのインターフェース(データバス)は16 ビット幅または32 ビット幅であることが多い(アドレスのビット幅はまちまち)。たとえば、データバスが32 ビット幅の場合は、1 バイト出力のメモリを4個並列につなげて32 ビットのデータ供給を実現できる(図3)。

アドレスはバイト位置を示すものである<sup>注3</sup>のに,一つのアドレスから4バイト(32 ビット)のデータを取り出そうとすると

# 〔図3〕32 ビットデータバス



「バイト並び(エンディアン)」の問題が生じる。複数バイトから 構成されるデータに対し、バイトアドレスのより小さい保存場 所にデータの上位の値を置くか、データの下位の値を置くかで 2通りの方法がある。アドレスの小さい場所にデータの上位を 置くのがビッグエンディアン、逆にデータの下位を置くのがリ トルエンディアンである。メモリでのバイト並びは異なるが、 ビッグエンディアンでもリトルエンディアンでも、データバス 上では同じイメージになる(図4)。

MPU内の演算器などはデータの下位側から計算をしていくので、その意味で、すべてはリトルエンディアンに集約されるといえなくもない。エンディアンとは、あくまでもメモリ上にデータがどの順序で格納されているかを示しているにすぎず、MPUの内部処理とは直接は関係ない。また、ビッグエンディアンの場合、ビット番号の名付け方がリトルエンディアンと逆順になっていることが多く、惑わされやすいが、実質(バイト内のビットイメージ)は同じである。

# 命令やデータを取り込むしくみ

MPUがまず行わなければならないことは、メモリに格納された命令やデータを内部に取り込むことである。そのためには、メモリに与えるアドレスを生成し、メモリから出力されたデータを取り込めばよい。

まず、命令について考えよう。MPUはPC(Program Counter:プログラムカウンタ)という記憶機構(レジスタ)を備えている。これは、命令を取り込むメモリのアドレスを保持する。PCの値はアドレスバスを通じてMPUの外部に出力され、これがメモリに入力される。アドレスバスに値を出力すると、データバスを入力状態にしてメモリから出力された値(命令)を取り込

# 「図4〕エンディアンとデータバスの関係。



注2:インテルやモトローラに代表される CISC 時代から MPUを使ってきている人は、16ビットをワード、32ビットをダブルワード、64ビットをクオドワード と呼ぶ、現在は32ビット MPU が主流なので32ビットをワードと呼ぶのが自然だが、16ビット MPU 時代の慣習も根強く残っている。 CISC メーカーは16ビットをワード、RISC メーカーは32ビットをワードと呼ぶ傾向が強い。

Ox12345678が乗っているように見える

注3: 昔の大型計算機などではアドレスの割り付けがワード単位になっているものもある。つまり、すべてのデータはワード単位でしか扱わないのが基本である。 このような場合にはエンディアンの問題はない。



# プロセッサの基礎知識

# む、これを命令フェッチという.

MPUがリセットされると、ある特定の値がPCの初期値として設定される。そしてPCは、通常はメモリから取り込んだ命令のバイト数だけ値が増加していく。メモリから取り込んだ命令が分岐命令だった場合は、分岐先のアドレスが新たなPCとして設定される<sup>24</sup>

データバスから取り込まれた命令は、一般に、命令レジスタ と呼ばれる記憶機構に保持される。それ以降の命令処理は、命 令レジスタの内容にしたがって行われる。

さて、命令が扱うデータについて考えよう、メモリには命令のほかにデータも格納されている。命令によっては、その実行のためにメモリのデータが必要である。このため、命令の実行にともなって、メモリに格納された値が必要になった場合に活性化される機構を備える。メモリを参照するアドレスはロード命令やストア命令などを実行(正確にはデコード)することで生成される。このアドレスはオペランドアドレスレジスタ(とりあえず、そう命名する)という記憶機構に保持される。オペランドアドレスレジスタの値はアドレスバスを通じてMPUの外部に出力され、これがメモリに入力される。アドレスバスに値を出力すると、データバスを入力状態にしてメモリから出力された値(データ)を取り込む。これをオペランドフェッチ、または、オペランドリードという。

図5にMPUの命令やデータを取り込むしくみを示す.

## 命令実行を制御するしくみ

MPUは、メモリから取り込んだ命令を解釈し実行する。メモリから取り込まれた命令は命令レジスタに保持され、それが命令デコーダによって解釈(デコード)される。デコードとは命令コードに含まれている MPU に対する指令を取り出す機構である。具体的には、命令の種類を判別し、取り出した情報に基づいて、実行すべき演算の種類を決定したり、必要な制御信号を生成したりする。

命令がデコードされると、命令ごとにその後の処理手順が決定される。命令の実行とは、MPUの内部状態が変化することであり、ある状態になると回路が特定の状態(たとえば、入力を演算器に入れるとか)に変化する、またある状態では回路が別の状態(たとえば演算器の出力を取り出すとか)に変化する、ということを繰り返すことで実現される。この命令実行は、一般に、**クロック**と呼ばれる周期的に変化する信号に同期して行われる。クロックが進むにつれて、内部状態は、ある命令では、

 $S_0 \rightarrow S_1 \rightarrow S_2 \rightarrow S_3$ 

と状態変化をし、また、ある命令では、

 $S0 \rightarrow S4 \rightarrow S5 \rightarrow S5$ 

と状態変化をする。ここでいう内部状態とは、具体的には、MPU内の各ゲートをON/OFF する組み合わせを示す。ある内

# [図5]命令やデータを取り込むしくみ



部状態は、命令デコード結果と命令実行の中間結果を受けて、次にどの内部状態になるかが決定される。この状態変化によって、MPU内をデータが流れていく[ $oldsymbol{\mathbb{Z}}$  **6** (a)].

以上は命令デコード後の制御であるが、MPU全体も、

命令取り込み→命令デコード→命令実行

という大きな状態遷移をしながら制御されている〔図6(b)〕.

要するに、命令実行は状態遷移の塊なのである。このような 状態遷移を司る機構を、ステートマシン、あるいは、シーケン サと呼ぶ。つまり、MPUの実行とは、大小さまざまなシーケ ンサが組み合わされて複雑な状態遷移を行うことで実現される のである。

# データを加工(処理)するしくみ

命令の実行とは、メモリに格納されているデータに対して何らかの加工(何もしないことを含む)をして、メモリに書き戻したり、命令実行の状態を変化させたりすることである.

メモリから取り込まれたデータは、レジスタと呼ばれる MPU 内部のメモリに一時的に退避されることもある。 MPUは、レジスタ (内部メモリ) やメモリ (外部メモリ) からのデータを適宜 演算器に与えることでデータを加工する (図7).

演算器のことを **ALU** (算術論理ユニット: Arithmetic Logic Unit) と呼ぶ、これは、加減算を行う算術ユニット (Arithmetic Unit) と論理和、論理積、排他的論理和などを行う論理ユニット (Logic Unit) の総称である。基本的な演算のうち、乗算と除算は専用のユニットで実現される。

どのメモリから演算器の入力をもってくるかという点は、 MPUのアーキテクチャ(設計思想)に大きく関係する. 基本的

注4:分岐先のアドレスは、通常、分岐命令の実行によって決定される. つまり、PCを分岐先に設定し直すタイミングは、分岐命令の実行後である. しかし、 最近のMPUでは命令のフェッチと実行部分が切り離されている場合もあり、この場合は命令フェッチ部が自律的に分岐命令を処理する.

## 「図6」MPU内部の状態遷移・



(a) 状態変化とデータの流れ

# 〔図7〕データを加工するしくみ



# 〔図8〕回路の模式図



1クロック間に信号が伝わることが必要

には、二つ(同一でもいい)のレジスタから入力データをもって くる。しかし、

メモリ と レジスタ レジスタ と メモリ

メモリ と メモリ

といった入力の組み合わせも当然考えることができる. ソフトウェアの作りやすさを考慮すれば、すべての組み合わせが可能



なほうがプログラミングの自由度が高く嬉しい。ハードウェアの設計しやすさを考慮すれば、メモリから取り込んだデータは必ずレジスタに格納することとし(これは何もしないという処理)、演算器の入力はレジスタのみに限定したほうがハードウェア設計が楽で嬉しい。

前者は CISC の考え方であり、後者は RISC の考え方である. ただ、二つの入力がどちらもメモリというのは、制御がかなり 複雑になるため、CISC であっても、入力の少なくとも一方は レジスタに限定されていることが多い.

演算器での演算の種類は、命令デコードによって決定される. なお、図5にあるアドレス生成器も演算器の一種であり、その実体は加算器である。アドレス生成器は、専用にもつ場合と、通常の演算器で代用する場合がある.

# クロック

MPUの動作を理解するとき、クロックの存在を忘れることはできない。クロックとは一定の周期で0と1を繰り返しながら自走している特殊な信号である。これは、MPUの動作タイミングの基準となる。1秒間に1回だけクロックが0から1に変化する(1周期)速さを1Hz( $\sim$  $\nu$ )という。最近の MPUは800MHzとか1GHzというクロックで動作するが、800MHzとは1秒間に $800 \times M($ メガ:100 万)=8 億回、1GHzとは1秒間に $1 \times G($ ギガ:10 億回クロックが変化することを意味する。

MPUの内部回路はフリップフロップの集合で構成される.フリップフロップとは、クロックの切り替わり時に新たな状態(0または1という信号)を保持する回路である.フリップフロップを複数個並列に並べたものがレジスタである.

MPUの回路を、フリップフロップとフリップフロップ間を 配線したものとして模式化すると(図8)、回路が動作するとい うことは、クロックが1回変化する間に前段のフリップフロッ



# プロセッサの基礎知識

プに保持した値が、銅線を通じて、後段のフリップフロップに保持し直されることに相当する。レジスタなどを考える場合、フリップフロップ間の配線長は完全には同じでないので、後段のフリップフロップ間に信号が到達する時間は同一ではない。あるいは、フリップフロップ間には論理積や論理和のゲートが挿入されていて、ゲートを通過するごとに少しずつ信号が遅延する。クロックとは、その信号の到達時間を規定するものである。つまり、1クロック間に信号が伝わらないと誤動作する。全部の信号が正しく伝わるためのクロックの最高周期が、MPUの最高動作周波数である。

# 汎用レジスタ

MPU内部のメモリをレジスタということはすでに説明した <sup>注5</sup>. レジスタは演算器の入出力となるデータの一時記憶場所である. レジスタは演算器のデータとなるほかに、アドレッシングモードにおいて、レジスタ間接用のベースアドレスやインデックスを与えるためにも用いられる. このようにレジスタの用途はいろいろあるが、すべての用途に使用できるレジスタを**汎用レジスタ** (General Purpose Register)という.

最近の MPU の提供するレジスタは汎用である。このため、最近の MPU は、汎用レジスタ方式と呼ばれる。しかし、昔はハードウェアを簡略化するために、目的別の専用レジスタを用意するものもあった。つまり、ベースアドレス用、インデックス用というようにレジスタの用途が限られていた。このような場合、演算器の入出力となるレジスタも限られている。具体的には、演算器の入力の一つと出力が演算用レジスタ(アキュムレータ)に接続されている。演算器のもう片方の入力が汎用で、ほかの専用レジスタやメモリ、アキュムレータ自身に接続されている。このような方式はアキュムレータ方式と呼ばれる。

# • 入出力

入出力とは、たとえば x86系の MPU では MOV という転送命令のほかに IN や OUT という入出力のための命令が存在する. MOV はメモリやレジスタに対するデータの入出力を司るので、新たに入出力といわれてもピンとこない. ここでいう「入力」と「出力」とは周辺装置からの情報の入力、周辺装置への情報の出力を示す. しかし、これらの命令が実際に行う処理は、あるアドレスからデータを入力すること、あるいは、あるアドレスへデータを出力することである. それではますます、MOV との違いがわからない. じつは「入出力」命令でのアドレスはメモリではなく、周辺装置に直接接続されているのである. メモリと区別する意味で、「入出力」命令でアドレスする(指し示す)対象を1/0 ポートという.

通常のMOV命令とIN/OUT命令を区別する場合、アドレスとデータの入出力時には、それがメモリかI/Oポートであるかを

示す信号(外部端子)が使われる。MPUを使ったシステムを構築する場合は、このメモリなのかI/Oなのかの信号を見て参照する対象を振り分けられるようにしなければならない。

MPUによっては専用の「入出力」命令を提供していないものもある。これはメモリ空間の特定位置をI/Oポートとみなす方式である。これをメモリマップトI/Oという。

I/Oポートとメモリの差異は、その逐次性にある。メモリに対しては投機実行やアウトオブオーダ実行が考えられるが、I/Oにはそれがない。これらについては、後述する各章で解説する。

# 2 命令コード, オペランド, アドレッシングモード

## • 命令の形式

ここでは MPU が処理する命令に関して考える。上述のように、命令はデコードされることによって処理に関する情報を抽出する。逆にいえば、命令には処理に関する情報が符号化(エンコード)されている。命令は数値の形態でメモリに格納されている。この意味で命令とデータに区別はない。そして、命令を示す数値をビットで表すと、それぞれのビットが意味をもっている(情報がエンコードされている)ことがわかる。命令を示す数値を命令コードと呼ぶ。

一つの命令コードのビット数は何ビットでもかまわないのだが、メモリに効率良く格納できるように 1 バイト (8 ビット)の倍数が用いられる。CISC では命令の種類によって命令コードのビット長がバイト単位で可変になっていたりするが、RISCでは命令デコードを簡単に行うために固定長 (16 ビット、あるいは、32 ビット)であることが多い。

一般に命令コードは、オペレーションコード(オペコード)と オペランドの二つの領域に分けられる。オペコードは命令の種 類を示し、オペランドは扱うデータの形態を示す。オペランド はアドレッシングモードで規定される。アドレッシングモード とは、データがどこに格納されているかを示す形式である。ア ドレッシングモードの例としては、

- 即値(イミディエート)命令コードに埋め込まれた定数値
- レジスタレジスタにデータがある
- 直接アドレスアドレスで示すメモリにデータがある
- レジスタ間接レジスタにあるアドレス値であるメモリにデータがある

注5:厳密にはレジスタとメモリは異なる。メモリにはフリップフロップで値を保持するSRAMとコンデンサの容量で値を保持するDRAMがあり、通常、MPU内部に搭載されるのはSRAM(キャッシュメモリなどに使用される)である。その意味で、どちらもフリップフロップの集まりであるが、メモリは専用に設計され、小面積で大容量の情報を記憶できる。つまり、レジスタをSRAMで構成すれば面積が縮小できるのだが、SRAMはクロックに同期して動くわけではないので、アクセス時間を規定しにくく回路設計が難しくなる。

- ●インデクスつきレジスタ間接レジスタにあるアドレス値にインデクスレジスタの値を加 またアドレスにデータがある
- ●ディスプレースメントつきレジスタ間接レジスタにあるアドレス値にディスプレースメントを加え たアドレスにデータがある

などがある. メモリ参照は、基本的には、

ベースレジスタ+インデクスレジスタ

+ディスプレースメント(オフセット)

また, メモリ間接アドレッシングというものもあり, これは, 上述のアドレス計算で求められたメモリの内容を新たなベース アドレスとし, ディスプレースメントを加えてメモリアドレス とするものである.

なお, ベースレジスタとしてプログラムカウンタ (PC)を指定できる場合もある. これを PC 相対アドレッシングと呼び, ポジションインデペンデントなオブジェクトコードを作成する場合に使用される. 図9にアドレッシングモードの例を示す.

このように、アドレッシングに関してはいろいろな方法が考えられるが、CISC は豊富なアドレッシングモードを特徴とし、RISC は単純なアドレッシングモードを特徴とする。具体的には、CISC は何でもありで、RISC は即値、レジスタ、ディスプレースメン

トつきレジスタ間接が典型的なアドレッシングモードである。

ところで、命令の実行は、二つのソースオペランドを入力とする演算を行い、結果をデスティネーションオペランドに格納する.二つのソースオペランドと一つのデスティネーションオペランドを独立に指定することができるのが**3オペランド方式**であり、一つのソースオペランドとデスティネーションオペランドが共通なものが**2オペランド方式**である.3オペランド方式では命令の中に三つのオペランド領域が存在し、2オペランド方式では命令の中に三つのオペランド領域が存在する.

オペコードのビット数は命令の個数を示す。つまり、2ビットなら4種類、3ビットならは8種類、4ビットならば16種類、5ビットならば32種類……、という具合である。命令コードのオペコード以外のビットはオペランドを示す。このビットが、基本的には、2オペランド方式では二つに、3オペランド方式では三つに分割される。オペランドのうち、アドレッシングモードに含まれるレジスタはレジスタの番号で示される。このレジスタ番号を示す領域のビット数は、MPUが備えるレジスタの本数によって決定される。4本なら2ビット、8本なら3ビット、16本なら4ビット、32本なら5ビット、……、という具合にビットが必要である。また、オペランド領域の分割のやり方は、命令の種類やアドレッシングモードによって少しずつ異なる。この違いを命令形式(フォーマット)という。命令形式の例を図10に示す。

以上の説明からわかるように、命令コードのビット長は、オペコードの種類、アドレッシングモードの種類、レジスタの本数、オペランドの数などで決定される。これらを総称して命令セットアーキテクチャという。MPUでは、無限に長い命令コードを使

# 「図9〕メモリアドレッシングの例



# 〔図10〕命令形式の例



- (b) 形式1 4 3 3 6 ディスプレース メントつきレジスタ間接ロード /ストア命令 デスティネーション ベースアドレス
- (c) 形式2
   4 3 9

   pufe をレジスタ に格納

# 【命令セッアーキテクチャの仮定】

・16 ビット固定長命令 ・命令の種類は16種 ・レジスタは8本
 ・アドレッシングモードは即値、レジスタ、ディスプレースメント付きのレジスタ間接



# プロセッサの基礎知識

用できるわけではないので、その命令セットアーキテクチャで命令コード長が決定される。逆にいえば、固定長の命令コードを採用する場合は、命令セットアーキテクチャを詳細に検討しなければ、情報が命令コードに入りきらなくなってしまう。

# ● 命令の流れと実行

MPUの構成要素がわかったところで、それらがどのような係わりをもって動作するのかを見ていこう。図11(pp.48-49)に模式化したMPUのブロック図と、演算命令/ロード命令/ストア命令に関し、各状態での命令とデータの流れを太線で示す。もちろん、MPUにはこれら以外の命令も存在するが、ここでは省略する。命令フェッチと命令デコードはすべての命令で共通であるが、それ以降は命令デコード結果によって異なる状態遷移をする。

# (1) 演算命令(レジスタ-レジスタ演算)

演算命令は、命令フェッチ〔図 11(a)〕、命令デコード&レジスタリード〔図 11(b)〕、命令実行〔図 11(d)〕という状態遷移を行うことで命令を実行する

# (2) ロード命令

ロード命令は、命令フェッチ〔図 11(a)〕、命令デコード〔図 11(c)〕、アドレス計算〔図 11(e)〕、メモリアクセス1=オペランドリード〔図 11(f)〕、メモリアクセス2=レジスタライト〔図 11(h)〕という状態遷移を行うことで命令を実行する。

# (3) ストア命令

ロード命令は、命令フェッチ〔図 **11**(a)〕、命令デコード〔図 **11**(c)〕、アドレス計算〔図 **11**(e)〕、メモリアクセス $_1$ =レジスタリード〔図 **11**(g)〕、メモリアクセス $_2$ =オペランドライト〔図 **11**(i)〕という状態遷移を行うことで命令を実行する.

# パイプライン

昔の MPU は一つの命令の実行が終わった後で、次の命令の実行を開始していた。しかし、命令実行に係わる状態遷移において、演算器など多くのハードウェア資源は1回しか使用されない。これでは、あまりにも効率が悪い。命令実行の状態をオーバラップさせることで、クロックごとにハードウェア資源を使用することができ、命令実行のスループット(クロックごとに実行が終了する命令の個数)も向上する。これがパイプラインの考え方である。

パイプライン構造でMPUを動作させるためには、各状態で 演算結果などのデータを保持しておけばよい。**図12**(p.49)に、 演算命令をパイプライン構造で実行する場合の、ハードウェア 資源の使用状況を示す。

パイプラインに関しては、第2章および第3章で詳細に解説する。

# キャッシュ

これまでの説明では、メモリを1クロックで参照できるものとして話をすすめてきた.しかし、現実的には、メモリのアクセス時間はMPUのクロックと比べて非常に遅い.実際の命令実行では、メモリを参照する状態(命令フェッチ、オペランド

リード、オペランドライト) は複数のクロック数を消費する. これでは、命令実行がメモリのアクセス時間に律速されてしまい、 高速な実行ができない.

そこで考案されたのが、従来は外部にあったメモリを MPU の内部に取り込むことである。この場合、高速な SRAM を集積することが可能になり、1~2クロックでメモリを参照できる。これがキャッシュメモリである。しかし、外部メモリと同じ容量のキャッシュメモリを内蔵することは不可能である。そこで、外部メモリの一部分をコピーしてキャッシュメモリに格納し、適宜外部メモリとの入れ替えを行って、高速な命令実行を維持する。

キャッシュメモリに関しては、次号で詳細に解説する予定である.

# MMU (仮想記憶)

命令やデータを格納する外部メモリの容量には限界がある.しかし、ソフトウェアの高度化にともない、プログラムがメモリに格納しきれない場合も出てきた。これを解決するために、プログラムを分割してハードディスクなどの補助記憶装置に格納し、少しずつメモリの内容と置き換えながら、それを実行するという方式が考えられた。発想はキャッシュメモリと同じである。このためには、プログラムで参照するアドレス(仮想アドレス)を実際のメモリのアドレス(物理アドレス)に変換する必要がある。この機能を提供するのが MMU(Memory Management Unit:メモリ管理ユニット)である。

MMUには、マルチタスクの実現、メモリ保護の実現という機能も有している。MMUに関しては、次号で詳細に解説する。

# 割り込み

MPUの処理内容が高度化してくるとソフトウェアも複雑になる。そこで、プログラムの本筋とは直接関係のない処理を独立に行うという発想が生まれた。それを実現するのが割り込みである。割り込みが発生すると、MPUはそれまで実行していた処理をいったん中断して、割り込み処理という別の処理の実行を始める。割り込み処理が終了すると、プログラムの実行は割り込みが発生した時点から再開する。プログラムは本筋のプログラムと割り込み処理用のプログラムを独立に開発できる。割り込みを使用しない場合は、割り込み処理で行うような別処理を本筋のプログラムからサブルーチンコールをして実行させなければならなく、プログラム開発において、そのための余計な考慮が強いられる。

割り込みに関しては,次号で詳細に解説する.

# • プログラムとは

MPU すなわちコンピュータは、メモリに格納された命令を取り込み、その指示するとおりに動作する。昔から、コンピュータはソフトウェアがなければ只の箱(粗大ゴミとも)といわれる。ソフトウェアとはプログラムのことであるが、それではプログラムとは何だろう。これは、今回の目的ではないので簡単に説明する。



PC生成 レジスタ 制御 オペランド 論理 アドレス 命수 レジスタ オペランド 外部メモリ リード 演算器 レジスタ オペランド ライト レジスタ (e) アドレス計算 (ロード/ストア命令)

コンピュータが理解できる命令は、コンピュータごとに定義された機械語と呼ばれるビット列である。一般的には、ビット列が8ビット(バイト)、16ビット(ハーフワード)、32ビット(ワード)の塊になってメモリに格納されており(そのほうがメモリにとって都合がよいので)、それが機械語の命令として認

識される.命令が参照するデータも命令と同じ形式をしており (区別がない),それがコンピュータ自体の属性でもある.

命令をある規則にしたがって並べてコンピュータに与えると、 特定の仕事をさせることができる。プログラムとは、目的の仕 事をコンピュータに実行させるために、それに最適な規則(ア ルゴリズムという)にしたがって、(機械語の)命令を並べたも のを意味する。プログラムの実行時には、この命令列をメモリ に格納し、コンピュータの動作を開始させるのである。すると、 これまでに示した手順で命令が処理されていく。命令処理には データが必要なので、昔から、プログラムとはアルゴリズムと データ構造を合わせたものである、とよく説明される。

さて、機械語は0と1のビット列なので人間には理解しにくい、それを人間が理解しやすくするために意味をもった(英語に近い)記号に対応させて扱う。つまり、MOV(転送)とかADD(加算)といった記号で機械語を代表させる。これらの記号をニーモニックと呼ぶ。ニーモニックを使用してプログラムを書くための手段がアセンブリ言語である。アセンブリ言語を機械語に変換するしくみ(これも結局はプログラムである)がア

# [図 11] MPU のブロック図と命令実行の流れ(つづき) =



# センブラである.

アセンブリ言語は、人間に理解しやすくなっているとはいえ、所詮は機械語とほぼ1対1に対応しているので、機械語そのものである。個々の命令機能が単純すぎて複雑なアルゴリズムを記述するためには向いていない。そこで考案されたのが、人間の思考を反映させやすくした**高級言語**である。「高級」というのは「飛び抜けた」という意味ではない。言語仕様が機械語にどの程度近いかの指標であり、アセンブリ言語は低級言語といわれる。その対極としての「高級」である。

# まとめ

この章を執筆していて、何だかコンピュータの教科書を作っているような幻想に見舞われた。コンピュータの教科書にはいろいろな知識が詰まっているが、その項目があまりにも多いので、ややもすると本質を見失いがちである。今回の目的はMPUのしくみを直感的に理解しようというものなので、2 進数やプール代数といった一般の教科書に載っているような事項は解説しない。

#### 〔図12〕パイプラインとハードウェア資源の供給 クロック 命令1 命令フェッチ 命令デコード 命令実行 メモリ レジ 演算器 スタ スタ スタ 命令2 命令フェッチ 命令デコード 命令実行 命令 レジ レジ メモリ 演算器 レジ スタ スタ スタ 命令実行 命令フェッチ命令デコート 命令3 レジ レジ メモリ レジ 演算器 スタ スタ スタ

本章は、いわば導入あるいは概説である。次章から各論に 入る。

なかもり・あきら フリーライタ



本章ではパイプラインについて説明する。パイプラインとは MPU の命令実行を高速化する手法の一つであり、現在では、ほとんどすべての MPU で採用されている。本章では、一度に 1 命令を実行する通常のパイプライン処理について解説する。このパイプラインは、2 命令以上を同時実行するスーパースカラに対して、とくにシングルパイプラインと呼ばれている。またはユニスカラパイプライン、あるいは単にスカラパイプラインと呼ばれることもあるようである。 (筆者)



# 流れ作業=パイプライン

コンピュータの性能を向上させる方法については、いろいろ 考案されている。パイプラインとは、ハードウェアを並列化し て性能を向上させるための一般的な手法である。その基本的な 考え方は、プログラム内蔵方式を提唱したフォン・ノイマンに よってすでに提案されていたという。たとえば、MPUの命令 実行に比べて10倍以上も遅いメモリアクセスが存在する状況 下で効率的に命令の処理を行うために、命令の実行とメモリア クセスをオーバラップして処理することが考えられた。これが、 パイプライン処理の原型である。

パイプラインの基本的な考え方はごく自然なものである。なにもコンピュータの技術に固有なものではない。自動車の製造ラインや電子部品工場などで行われている流れ作業は、パイプラインそのものである。一つの製品が数分後ごとに完成していくようすを思い浮かべてほしい。実際、パイプラインの呼び名は、石油が次々とパイプを通過していく石油化学パイプライン

と動作が似ていることに由来している。

各工程が1単位時間かかるN工程からなる処理を考える.単純に考えると,この処理を終了するためにはN時間を要する〔図1(a)〕.これをN人の人が流れ作業によって各工程を分担し,前の工程から受け継いだ製品に1単位時間で加工を施して,後の工程に引き継ぐようにする〔図1(b)〕.この場合,もともとの処理ではN時間に一つしか製品が完成しないが,流れ作業では見かけ上,1単位時間に一つの製品が完成することになる.つまり,処理速度はN倍に改善される.これがパイプラインの原理である.

# • ステージ, 段数, ハザード

ここで、各工程をパイプラインのステージという。「段」という表現も使われ、N工程から構成されるパイプラインはNステージパイプライン、またはN段パイプラインと呼ばれる。また、あるステージを分担する人が手間取って、そこでの処理を1単位時間以内に終わらせることができないような場合は、パイプライン処理に乱れが生じ、処理性能が低下する。パイプラインステージでの処理を単位時間内に終わらせることを阻害する要因をハザードという。

#### 〔図1〕パイプライン処理の概念 時間 1 2 3 Ν 2 3 N 2 3 時間 1 1 2 3 N-1 N 2 N-1 1 3 Ν 工程 2 3 3工程が同時 (a) N 工程からなる処理 に処理される 工程1 工程2 工程3 工程N-2 工程N-1 を専門 を専門 を専門 を専門 を専門 に処理 に処理 に処理 に処理 に処理 する人 する人 する人 する人 する人 (b) パイプラインによる処理

パイプライン処理をコンピュータに適用する場合は、各ステージが並列に処理できることが前提である。ハードウェア資源を共有するステージがあると、ハザードが生じ、待ち合わせが必要になる(これを**ストール**という)。逆にいうと、ハードウェア資源が競合しないようにパイプラインステージを分割することがプロセッサ設計者の腕の見せどころである。

パイプライン処理はまず、大型計算機で採用された。その後、半導体の集積技術が進み、MPUでも大量のトランジスタが利用可能になると、MPUにも採用されるようになる。パイプライン処理の採用を大々的に表明した MPU は、NEC の V60 が最初ではないかと筆者は記憶している。それ以前のインテルの 8086 でもオペランドフェッチと実行をパイプライン化していたが、インテルがパイプラインを明言したのは 80386以後(最近のインテルの発言では Pentium 以降)となっている。一方、68000系の MPU も占くからバスサイクル同期のパイプライン処理をしていたようである。しかし、こちらもパイプラインを明言したのは 68060 が初めてだったと思う。

68060 はすでにスーパースカラ構造になっていたので、シングルパイプライン時代の 68000 系のパイプライン構造は不明である.



# パイプラインの理論

# パイプラインステージ

CISC 初期においてもパイプライン構造を採用しているものがあった。しかし、それらの MPU においてパイプライン処理は有効に機能していたとはいえない。各 MPU メーカーがパイプラインを強調しなかったのは、それが性能に寄与していなかったからではないかと考えられる。しかし、RISC の登場によってパイプライン処理はにわかに脚光を浴びる。RISC のパイプラインは、CISC とは異なり、全命令でパイプラインのステージ数は固定であることが多い。筆者だけの感覚かもしれないが、命令フェッチ、命令デコード、実行という処理の流れも、その区切りが明確になっているように感じる。

RISCの存在意義は、パイプライン処理をいかに効率的に実現できるかにかかっているといっても過言ではない。このため、RISCでは命令やオペランドをキャッシュからフェッチすることを前提としている。通常のメモリはアクセス時間が遅いので、メモリアクセスステージの処理時間が他のステージに比べて長くなり、効率的なパイプライン処理を行うことはできない。ステージの処理時間を均一化するため、キャッシュの導入は必然だったといえる。キャッシュの導入により、メモリアクセスス

## 〔図 2〕 RISC のパイプライン処理



(a) ステージと機能ブロックの関係



(b) スムーズなパイプラインの流れ

テージが1または2クロックという固定クロック数で処理できるようになる.

RISC のパイプラインは、コンピュータアーキテクチャの有名な教科書で学ぶことができる。それが、Hennessy と Pattersonによる『コンピュータアーキテクチャ』(通称へネパタ)である。この教科書では、仮想的な MPU として DLX(デラックスと発音する)という MPUを定義し、そのパイプラインとして次の5ステージの処理が提案されている。もっとも DLX は MIPS のR2000/R3000と非常に近い(同じ?)構造をしており、以下はR3000のパイプラインそのものということもできる。ただし、ヘネパタではメモリがキャッシュであることをとくに強調してはいない。

# • RISC のパイプライン処理

RISC のパイプライン処理を**図2**に示す。パイプラインがスムーズに動作する場合は、全ステージ数と同じ数の命令が(理論的には)同時実行できる。

# (1) 命令フェッチ (IF)

命令キャッシュから命令を取り出す.

# (2) 命令デコード(RF)

フェッチした命令をデコードする. 同時にレジスタオペランドをフェッチする.

# (3) 命令実行(EX)

デコード結果とフェッチしたレジスタの値を基に命令を実行する。ロード/ストア命令の場合は実効アドレスの計算を行う。 分岐命令の場合は分岐先アドレスを計算する。

# (4) オペランドフェッチ (MEM)

EXステージで計算したアドレスに対応するメモリの値をデータキャッシュよりリードする.

# (5) ライトバック(WB)

EX ステージで計算した結果、または MEM ステージでフェッチしたオペランドをレジスタに格納する。ストア命令の場合はデータキャッシュにライトする。

上のパイプラインではアドレス変換のステージがないが、これは IF または MEM ステージに先立って行われる。この詳しい説明は次章で解説する R3000 のパイプラインの実際の項に譲る。

RISCのパイプラインの特徴は、アドレス計算をする専用のステージがなく、EXステージで代用している点である。このため、アドレス計算用の演算器と命令実行用の演算器(実際は加算器)をそれぞれ別個に用意する必要はない。これはRISCの「ロード/ストアアーキテクチャ」という特徴に由来する。つまり、一つの命令では2回加算を行うことがない、1命令で1回だけ演算器を使用するという制限の下で、レジスタとレジスタ間の加算、または、アドレス計算(ロード/ストア命令)は別の命令に分かれて定義されている。

# • データハザードとフォワーディング

パイプラインの処理が乱れるハザードは、RISCのパイプラインでも発生する。それを詳しく見ていこう。まずはレジスタの依存関係に起因するハザードである。レジスタ間のリード/ライトの前後関係で、次の4種類が考えられる。

# (1) RAW (Read After Write) ハザード

これは、レジスタライトの完了前に後続命令によって同一の レジスタをリードしようとした場合に生じる(**図3**).

# (2) WAR (Write After Read) ハザード

これは、レジスタから値をリードする前に後続命令によって 同一のレジスタにライトをしようとした場合に生じる。

# (3) WAW (Write After Write) ハザード

これは、同一レジスタへのライト順序が狂う場合に生じる.

# (4) RAR (Read After Read) ハザード

一応挙げたが、レジスタへの変更がともなわないので、この ようなハザードは存在しない。

以上はデータに起因するハザードなので、総称して**データハザード**と呼ばれる。しかし、(2) および(3) のハザードは命令の実行順序が狂わない限り発生しない。通常のパイプラインでは発生しないが、スーパースカラ構造では発生することがある。これは後述の章で説明する。

当面の課題は(1)の RAW ハザードである。これは、フォワーディング、バイパス、または、ショートサーキットと呼ばれる手法で解決可能である。つまり、EX、MEM、WB ステージから RF ステージへのバイパス回路を設けることで解決できる(図4)。RISC では、パイプライン処理を乱さないために、フォワーディングはなかば常識である。

しかし、パイプラインのステージ数が多い場合、具体的には、 レジスタをフェッチするステージ(RF)とレジスタへの書き込 みステージ(WB)の間の段数が多いと、各ステージからRFス



〔図4〕バイパス回路とフォワーディング -



テージへのバイパス経路がその段数分必要なので、実行ステージ(EX)へ与えるデータのセレクタが巨大になってしまう。これはもちろん動作周波数にも影響を与える。どの程度フォワーディングを行うかは悩ましいところである。

# ロード遅延と遅延ロード

ロードした値を直後の命令で使用する場合を考える。この場合、MEM ステージで値が初めて確定する。このとき後続命令はEX ステージにあるのでフォワーディングは不可能である[図5(a)]。なにも対処しないと変更前のレジスタの値をフェッチしてしまう。これをロード遅延という。

このため、プログラムの意図どおりに命令を処理するためには、パイプラインの**インタロック**が必要となる。インタロック とはハザードの有無をテストし、ハザードがある場合はハザー ド原因が解決するまでパイプラインを停止する機構である。

また、停止しているサイクルを**パイプラインストール**(パイプラインバブル)と呼ぶ。**図2**で示す $_5$ ステージ構成のパイプラインなら $_1$ クロックストールさせればよい〔**図5(b)**〕.

パイプラインのストールは、処理性能の低下を意味する。それを回避する手法の一つは、プログラムの意図を損なわない範囲で命令の順序を入れ替えることである。いまの場合、1クロック分(1命令分)待ち合わせればいいので、ロードした値を参照する命令と後続の無関係な命令を入れ替えればよい。

入れ替えるべき適当な命令がない場合は、NOP命令を挿入することになる〔図5(c)〕. この手法はデータハザードの回避にも有効である. このような命令入れ替えや命令挿入を, 命令スケジュールと呼ぶ. RISCのアセンブラは命令スケジュールを当然のように行っている(禁止の設定も可能). つまり, アセンブラが「勝手に」最適化するので, プログラマが書いたとおりの順序でコード生成が行われるとは限らないのである. この事実を知ったとき, 筆者は少々衝撃を受けたが, いまでは慣れてしまった.

RISC は制御構造の単純化を目標としているから、インタロックは歓迎すべきものではない。ロード遅延をそのまま許し、アセンブラによる命令スケジュールによってのみストールを回避しようという考えがある。これが**遅延ロード**である。MIPS の R2000/R3000 は遅延ロードを許すアーキテクチャを採用している。

ただし、R4000からはインタロックするアーキテクチャに変更された。これは、現実問題として、命令の並び替えができる場合が少なく、多くの場合 NOP命令が挿入されてしまうからであろう。NOP命令の挿入により、全体としての命令処理は1クロック余分にかかるが、これはストールで1クロックインタロックしても同じである。それなら NOP命令がない分、命令コードのサイズを小さくできるという利点がある。

# • 制御ハザード

パイプライン処理を乱すハザードにはデータハザードのほかに制御ハザードがある。これは分岐によるハザードである。ブランチハザードともいう。RISCでは、条件分岐は汎用レジスタの値で分岐条件を決定する。MPUによっては、CISCと同じ



く条件フラグを採用しているものもある。この場合の制御ハザードはフラグハザードともいう。

さて、条件分岐の場合、分岐条件が確定するまで分岐先の命令フェッチができない[図 6(a)]. これによるストールは命令スケジュールで回避することはできず、性能に与える影響が大きい.

条件フラグを使用する場合でも命令スケジュール可能だが、そのアルゴリズムは非常に難しい。RISCが条件フラグを採用しない理由の一つがコンパイラでの命令スケジュールを簡単にするためである。なお、条件分岐で分岐条件が成立して分岐することを TAKEN, 分岐条件が成立せず分岐しないことを NOT TAKEN (あるいは NO TAKEN) という.

# • 遅延分岐

パイプライン処理を乱さないため、ストール期間中も(通常は無効化してしまう)分岐命令の後続命令(これを遅延スロットという)を実行させるという考えがある。図2に示すパイプラインでは、EXステージでTAKEN/NOT TAKENが決定される。したがって分岐先の命令フェッチは、1クロックのストール後に実行可能である。

TAKENする場合、通常なら分岐命令の後続命令は実行を禁止しなければならない。しかし、その遅延スロットの命令を実行してから、分岐先の命令をフェッチする構造にすれば、パイプラインはストールする必要はない〔図 6(b)〕。TAKEN しない場合は、もともとストールしない。これを遅延分岐と呼ぶ。

このような遅延スロットを設ければ、命令スケジュールを行うことができる。分岐命令の前方にある命令を遅延スロットにもってくることで、分岐命令によるストールはなくなる。ただし、遅延スロットに入れる適当な命令がない場合は、NOP命令を入れることになる。

R2000/R3000のパイプラインはこのようになっているが、 現実問題としては、分岐命令の分岐先アドレスも EX ステージ

# 〔図6〕遅延分岐





(**b**) 遅延スロットを設けるとストールがない



(c) 分岐先フェッチタイミングを緩くするとストールが発生する

#### 〔図7〕命令デコードが2ステージの場合の制御ハザード 2 3 5 6 8 9 分岐命令 IF RF1 RF2 MEM EX WB 遅延スロット ΙF RF1 RF2 EX MEM WB 分岐先命令 (TAKEN) RF1 EX MEM WB IF RF2 ストール

で計算される(したがって、分岐条件を判断するための専用の演算器が別個に必要である)ため、それとほぼ同時に分岐先を命令フェッチするのはタイミング的に厳しい、動作周波数を向上させるためには、遅延分岐を採用しつつも、もう1クロック遅れさせるのが望ましい[図6(c)]。このあたりをうまく回避するのが回路設計技術ということもできるが、一般的には、分岐予測を行うことでストールを解消することが可能である。

さて、制御ハザードではTAKENの決定が遅いほどストール期間が長くなる。これはステージ数の多いパイプラインで顕著になる。たとえば、可変長命令を採用するx86のようなMPUにおいては命令デコードに時間がかかる。一般的には、パイプラインで少なくとも2ステージ分が必要である。

たとえば,

# IF RF1 RF2 EX MEM WB

の6ステージからなるパイプラインを考える. TAKEN の決定は EX ステージなので、これまでの説明より1クロック遅いことになる。このとき分岐命令でのストールは2クロックである(図7).1クロックを遅延スロットで埋め合わせるとしても、さらに1クロックだけ処理に余計な時間がかかる。あとで述べるスーパーパイプラインでは、EX ステージより前のステージ数がさらに増加し、分岐命令のストールによる性能低下は深刻なものとなる。

# • 分岐予測

分岐命令の処理を高速化するために、**分岐予測**という機構が 採用される。これは、分岐先アドレスをパイプラインのより早 いステージで生成し、分岐先の命令フェッチを早期に行う手法 である。具体的には、分岐ターゲットバッファ (BTB: Branch Target Buffer)、または分岐予測テーブル (BPT: Branch Prediction Table、BHT: Branch History Table)と呼ばれる キャッシュを用意し、分岐命令のアドレス、分岐履歴情報、予 測される分岐先アドレスを格納しておく。

命令フェッチ時(IF ステージ)に BTB を参照し、ヒット(登録してある分岐命令のアドレスと命令フェッチアドレスが一致)すれば、分岐履歴情報にしたがって、分岐先アドレスを出力し、命令フェッチを行いながら、TAKEN/NOT TAKENの判定を待つ。予測が成功すればフェッチした命令をそのままデコードすればよい。

予測が失敗すれば、実際にEXステージで計算されるアドレスから命令フェッチをやり直し、BTBの分岐履歴情報を更新する(図8)。BTBにヒットし予測が成功する場合はストールがなくなる。BTBにヒットしない場合は、分岐予測を行わない場合と同じタイミングで分岐命令が処理される。

しかし、BTB にヒットするのに予測が失敗する場合は、何もしない場合に比べて、パイプラインの回復処理にかえって時間がかかってしまうことがある。これが、分岐予測失敗時のペナルティである。したがって、分岐予測を採用しても予測が失敗ばかりすると、かえって性能が低下するのでヒット率を向上さ



せるための工夫が必要である.

図8のパイプラインのモデルではBTBにヒットすると予測した分岐先アドレスから命令フェッチを行うが、MPUによっては(予測する)分岐先の数命令をBTBに格納しておき、そこから命令をフェッチする方法を採用する。こうすることにより、パイプラインは予測していない方向の命令も同時にフェッチできるので、分岐予測が失敗した場合のペナルティを最小化できる。

また、分岐予測の成功する確率が高いと思われる場合は、TAKEN/NOT TAKENが決定するまで、予測した分岐先から命令をどんどん先取り(プリフェッチ)する手法もある。パイプラインのステージ数が大きく、TAKEN/NOT TAKENの決定がパイプラインの遅い(後段の)ステージで行われる場合、予測が成功すれば効果的である。逆に予測が失敗したときのペナルティは大きくなる。分岐予測の成功率によほどの自信があるか、失敗時の回復処理がかなり高速化されてないと採れない方式であるが、最近のMPUではけっこうポピュラーである。

# 分岐予測の方法

予測の方法は分岐履歴情報による場合が多い。これは分岐する確率を示す $1\sim2$ ビットのフラグであり、BTBに登録されている分岐命令ごとに存在する。分岐履歴情報が1ビットの場合は1であるとき「分岐する」、0であるとき「分岐しない」と予測する。これは、その分岐命令が過去1回で分岐したか否かを示している。つまり、以前分岐した分岐命令は今回も分岐すると予測するわけである。

分岐履歴情報が2ビットの場合はもう少し慎重である. ビット列の意味のもたせ方はいろいろ考えられるが, たとえば, 11, 10で「分岐する」, 01, 00で「分岐しない」と予測する. これは, その分岐命令が, 過去2回において何回「連続して」分岐したかを示す. 分岐する傾向が大きい方向に予測するわけだ.

なお、分岐する(と予測する)分岐命令のみをBTBに登録する方法もある。この場合は分岐履歴情報は不要で、BTBにヒットすれば「分岐する」、ヒットしなければ「分岐しない」と予測する。この場合、分岐予測が成功する確率は、分岐履歴情報が1ビットの場合とほぼ同等であるが、BTBの回路規模は約半分になる。

分岐予測を行わない場合で、分岐命令を高速化する方法として、分岐先と分岐元の命令を同時にプリフェッチする手法もある。それに関係する特許は、昔、山のようにあった。これは回路規模が大きくなるため、あまり現実的でない。といいつつも、インテル系のMPU(とくにIA-64)ではそのような説明をよく目にする。ただし、具体的な実装方法は不明である。やはり、特許が絡んでいるようだ。

# • 構造ハザード

構造ハザードとは、パイプラインの二つ以上のステージがつしかないハードウェア資源を取り合うために生じるハザードである。たとえば、5ステージで構成されるパイプラインでは、1時刻に五つすべてのステージが実行される可能性がある。もし、各ステージで同一の演算器などを使用する場合は競合する

# 〔図8〕分岐予測



ので、優先されるステージ以外は待ち合わせをする必要がある.

RISCの場合、ほとんどのハードウェア資源は競合しないように設計されているのであまり問題はない。しかし、例外もある。それはキャッシュ(あるいはメモリ)である。図2(b)をもう一度見ていただきたい。時刻4において命令1のMEMステージと命令4のIFステージが重なっている。もし、命令1がロード/ストア命令であり、命令とデータキャッシュの区別がなく単一のキャッシュしかない場合は、IFステージも MEMステージもキャッシュアクセスなので、資源の競合が生じる。キャッシュが存在しない場合もメモリアクセスの競合が生じる。この場合は、先にある命令1のMEMステージを優先させ、命令4のIFステージをインタロックして待ち合わせることになる。これは、できるだけパイプラインをインタロックさせないというRISCの考え方に反する。

そこで、多くのMPUでは命令とデータを二つのキャッシュに分割して同時にアクセスできるようにしている。これならアクセスの競合によるインタロックは発生しない。このように命令とデータの供給経路を独立にする方式をハーバードアーキテクチャという。

なお、命令とデータに関しては、TLBが一つしかない場合、アドレス変換時にも資源の競合が生じる。それを避けるため、命令用とデータ用のTLBを独立に用意するアーキテクチャもある。多くの場合、命令はアクセスするアドレス範囲が小さい(あるいは連続している)ため、命令用のTLBをマイクロTLBとして、仮想アドレスと物理アドレスのペアを本当のTLBからキャッシュしてもっているのが普通である。

# ステージの処理時間が不均一なパイプライン

さて、パイプラインのステージ間の実行時間が均一でない場合を考える。RISC は命令を1クロックで実行するのが基本であるが、乗除算や浮動小数点演算など1クロックで実行するのが難しい場合もある。

いま, 実行ステージ(EX)の処理が4単位時間かかるものと

する(図9). この場合, EXステージが終了するまで同時実行中の他のステージも待ち合わせをするので、パイプラインのスループットは実行ステージの処理時間に依存する. ほかのステージの処理時間は実行ステージの処理時間に隠れてしまう. 実行ステージの処理時間が長いだけならまだよい. ほかのステージもまちまちな処理時間を有する場合は悲惨である. 不均一であればあるほど、パイプラインの処理時間は各パイプラインステージの処理時間の総和に近づいていく(パイプラインの意味がなくなる). このため、実行ステージ以外のステージの処理時間を均一にすることが肝要である.

パイプラインにおいて実行(処理)時間がかかるのは、特定命令の「実行ステージ」のほかに、メモリの速度に依存する「命令フェッチステージ」や「オペランドフェッチステージ」がある。 RISCは、キャッシュを採用することで命令フェッチやオペランドフェッチの処理時間を1クロックに押し込めようとしている。

典型的な RISC である MIPS アーキテクチャにおいては、全命令の実行クロックを1クロックとするために、実行時間がかかる乗除算は、通常のパイプラインとは独立して並列実行する。そして、乗除算の結果は汎用レジスタではなく、専用のレジスタに格納される。つまり、乗除算命令では汎用レジスタ間のデータハザードは発生しない。このため、乗除算命令の処理は通常のパイプライン動作に影響を与えない。乗除算が完了した後で、専用レジスタから演算結果を取り出せば(専用レジスタから汎用レジスタへの転送命令が用意されている)インタロックは発生しない。

初期の MIPS プロセッサである R3000 では,乗算と除算の実行時間がそれぞれ 12 クロックと 35 クロックである.乗算命令に関していえば,実行を開始してから 12 クロック後に結果を取り出せばインタロックは発生しない〔図 10 (a)〕. プログラム的には乗算命令と結果を取り出す命令の間が 12 命令分空いていればよい.

一方、12 クロック未満で結果を取り出そうとすると、アーキテクチャ的には不本意ながらインタロックしてしまう〔図 10(b)〕. 現実的には乗除算命令と結果を取り出す命令の間はせいぜい3命令程度しか空けることができないので、乗除算命令があるとほ

とんどの場合インタロックしてしまうのだが、コンパイラの頑張 りによってはインタロックしない可能性を残している.



# パイプラインを効率良く動かす 各種の方法

効率的なパイプライン処理が可能になった理由

歴史的に見れば、キャッシュメモリ(高速なローカルメモリ)がまだ高価で外付けのキャッシュすら現実的でなかった時代、プロセッサの処理はメモリからの命令フェッチにいちばん時間がかかっていた。当然の流れとして、プロセッサの性能を上げるためには、フェッチする命令数を減らすこと、1命令で行う処理を増やすことが考えられた。結果として、上述したように実行ステージが長くなる傾向になるのだが、多くの場合はいちばん時間のかかる命令フェッチと、あまり時間のかからない命令のデコードおよび実行をオーバラップ(バイプライン処理)させて実行効率を上げることが可能になる。これが、その時代の最適解であった。そして、それこそがCISCの考え方である。

その後 RISC という選択肢が現れてきた背景には、キャッシュが一般的になり、命令フェッチがもはやプログラムの実行に支配的でなくなったことがある。命令のデコードや実行時間が命令フェッチ時間の影に隠れなくなり、実行する命令数よりも 1命令の実行時間のほうが性能に対し支配的になった。RISCでは、基本的に 1クロック実行なので、CISC に比べて命令実行時間が 1/3 から 1/5 になる。 1命令が単純な分、同じ処理に要するコード量は増加するが、RISC になることによる命令数の増加はわずか  $30\sim50$  %であるという。差し引き、性能は向上する.

また、RISCでは命令が基本操作に限定されているので、コンパイラによる最適化が行いやすいという利点もある。まあ、現実には、基本的な命令だけで優れた最適化ができるということを MIPS や SPARC 用のコンパイラが実証できたために RISC がメジャーになったともいえるのだが、CISC から RISC の流れは歴史の必然であった。

# • CPIと MIPS 値

パイプライン処理における命令の実行効率を表す指標として,

# 〔図9〕実行ステージが長いパイプライン



**EX**ステージが終了しないので 後続命令はパイプラインステ ージを進めることができない

## 〔図10〕 MIPS の乗除算命令



CPI (Clock cycles Per Instruction) がある。これは 1命令を実行するのに必要なクロック数である。RISC の当初の目標は、キャッシュと効率的なパイプライン処理で CPI を 1 にすることにある。実際、RISC はキャッシュにヒットしパイプラインにインタロックがない場合は CPI が限りなく 1 に近づく。インテルの MPU の平均 CPI に関しては、80386 や i486 を設計した技術者の一人である Patrick Gelsinger のレポートがある。それによると、表 1 (a) のような値が出ている。

MPU が進化するにつれてパイプラインの効率が上昇しているのがわかる。さすがインテルというところだろうか。i486で CPI が急激に改善したのは、キャッシュの恩恵といわれている。 CISC でありながら RISC 並みのパイプライン処理を採用したことも一因であろう。現在の Pentium の CPI は  $0.6 \sim 0.7$  であるという(ちょっと性能が良すぎる感もあるが)。これは後述の章で説明するスーパースカラの恩恵である。

CPI は MIPS (Million Instructions Per Second) 値と密接な関係がある。MIPS 値とは 1 秒間に実行できる命令数 (100 万命令単位) だから、動作周波数と CPI が決まれば、

周波数(MHz単位)÷ CPI

という計算式で、MIPS値が求まる。この式で、上のx86プロセッサのMIPS値を計算すると $\mathbf{表1}(\mathbf{b})$ のようになる。

実際に公表される MIPS 値は、Dhrystone MIPS (最近では

〔表1〕x86系CPUのCPIとMIPS値

| CPU   | CPI  |
|-------|------|
| 8086  | 15.0 |
| 80286 | 6.0  |
| 80386 | 4.5  |
| i486  | 1.7  |

| (a) x86系CPUのC | (a) | ⟨86系C | PUのCE |
|---------------|-----|-------|-------|
|---------------|-----|-------|-------|

| CPU     | MHz | MIPS  |
|---------|-----|-------|
| 8086    | 5   | 0.33  |
| 80286   | 8   | 1.33  |
| 80386   | 12  | 2.67  |
| i486    | 25  | 14.71 |
| Pentium | 66  | 110   |

(b) x86系CPUのMIPS値

DMIPS と略記されることもある) なので、もう少し高い値になっているかもしれない。これは、Dhrystone ベンチマークを実行した性能が、1MIPS 相当のVAX-11/780 の何倍であるかを表すものである。

Dhrystone MIPSでは、コンパイラの性能しだいで、シングルパイプラインの MPU の CPI が 1 を割ることも多く、直感的ではない。しかし、現在実際に使用されている MIPS 値は Dhrystone MIPS が主流なので、慣れが必要である.

もっとも最近の x86 系は、MIPS 値の公表をやめてしまっている (表向きの理由はいろいろあるが、発表すると CPI の大きさが問題となるからだろう)ので、性能を比較するには動作周波数に頼るしかない。各メーカーは独自の基準で従来品との相対性能を公表しているが、異なるメーカー間での性能比較はできない。いくら動作周波数が高くても CPI が悪ければ何にもな

らないのだが、メーカーやマスコミはこの点を意図的にうやむ やにしているようにも思える.

インテルは Pentium4 で 3GHz 以上の動作周波数を実現した. 実効性能は Pentium4 と同等であるが,動作周波数では Pentium4 に劣る AthlonXPを有する AMD は、周波数の大き さによる優位性のアピールから実効性能の優位性のアピール(モデル番号の採用) に方針転換した.

## スーパーパイプライン

MPUを高い周波数で動作させるためには、パイプラインの1ステージあたりで実行する論理を減少させる必要がある。単純に考えると従来1ステージで実行していた処理を2ステージに分割することである。つまり、高速な動作周波数になるにつれてパイプラインのステージ数が増加する傾向にある。いま、パイプラインのステージを

# IF1 IF2 RF1 RF2 EX1 EX2 MEM1 MEM2 WB1 WB2

として CPI を試算してみよう、**図 11 (a)** では 4 命令を 8 クロックで実行しているので CPI は 2.0 である.一方,**図 11 (b)** では 4 命令を 13 クロックで実行しているので CPI は 3.25 である.スーパーパイプライン構成にすることで CPI は約 1.5 倍に増加してしまう.しかし,動作周波数を 2 倍に引き上げることができれば実質的な性能は向上する.これがスーパーパイプラインの考え方である.

スーパーパイプラインを最初に採用したのは MIPS の R4000





である. これは当初 100MHz 動作であったが, 最終的には 250MHz 動作を達成している. ほぼ同時期に登場した DEC の Alpha (21064) は 200MHz 動作を達成していた. これは 1990 年代の始めとしては驚異的な動作周波数だった. このため Alpha は, 世界最高速の MPU としてギネスブックに登録された. 最近では.

動作周波数を上げる=パイプラインのステージ数を増やすという図式が常識のように語られるようになった。インテルのPentium4(Willamette)は20ステージのパイプライン構成で2GHz以上の動作を目指した。そして、Northwoodで3GHzを超えた。IPコアの分野でも、Lexra社がLX4189(MIPS系)でパイプラインを従来の5ステージから6ステージに変更することで、初めて250MHz以上の動作周波数を達成したと発表した。

動作周波数を上げるためにはパイプラインのステージ数を増やす必要があるのは本当だが、逆は必ずしも真ではないと思うので、そんな単純なものではない。しかし、これからのMPU設計においては、パイプラインのステージ数を増加して動作周波数をかせぎ、それによるCPIの増加は分岐予測を高度にすることで補っていく傾向になるのは間違いないだろう。

# • プリフェッチとデカップル (decouple) 構成

命令フェッチが命令キャッシュにヒットする限りは、各サイクルごとに命令デコーダに命令が滞りなく供給されるので、プリフェッチをして命令をFIFOなどに蓄えておく必要はない。しかし、命令キャッシュミスが発生すると命令供給が停止するの

で、パイプラインがストールしてしまう。それを 防ぐためにプリフェッチは有効である。命令デ コード以降のパイプライン処理とは、独立に命令 を絶えずプリフェッチしておけば命令デコードに おいて命令の供給が停止する頻度は少なくなる。

命令キャッシュのミスが発生した場合、命令キャッシュへの書き込みと同時にデコーダへ命令をバイパスする「命令ストリーミング」もパイプラインのストールを低減させる方法の一つである。しかし、命令ストリーミングでは、(通常は)パイプラインクロックよりも遅いバスクロックに同期して命令供給が行われるので、命令ストリーミング中の命令処理はバスクロック同期に近くなり、効率があまりよくない。プリフェッチは、命令キャッシュミスの発生が契機となるわけではなく、無条件に命令フェッチを行っていくので、命令ストリーミングよりも効率がいい(はずである).

シングルパイプラインではあまりお目にかからないが、デカップル方式という構成がある。これは、プリフェッチとよく似た概念であるが、命令デコードと実行ステージの中間に FIFO を置いて、その FIFO に絶えずデコード済みの命令を格

納しておく、こうすることで、FIFO内の命令はソース オペランドが有効である限り、各サイクルごとに命令実 行を開始することが可能になる。つまり、オペランドの 依存性による命令デコードステージでのストールが緩衝 されて見えなくなる(パイプライン効率が上がる)。

当然、命令フェッチとデコードまでのステージと実行ステージ以降は別のクロックに同期して独立に動く、パイプラインがデコードまでと実行以降が分離(decouple)されていることで、デカップル方式と呼ばれる。

デカップル方式の利点は、単純なプリフェッチとは 異なり、命令デコードを行うので分岐命令を認識 することが可能であり、分岐予測をしながら投機的 (speculative)に命令のプリフェッチを行うことができ る点である。単なるプリフェッチであれば、分岐する分 岐命令以降にある命令をむだにプリフェッチする恐れ がある。分岐予測にしたがってプリフェッチを行うこと ができれば、(分岐予測が当たる限り)命令フェッチの ロスはなくなる。

このため、デカップル方式では、分岐予測が有効に働けば、パイプライン処理の中で、命令フェッチと命令デコードステージを無視することができる。たとえば、5ステージのパイプライン処理ならば、2ステージ少ない、3ステージのパイプラインと同等の効率で命令を処理できる。

プリフェッチやデカップル方式での投機的なデコードは、実行ステージ以降で発生するパイプラインストールの合間を縫って行われる。実行ステージ以降でストールがまったく発生しなければ、プリフェッチ機構自身が無意味なものになってしまう。パイプライン効率は落ちないが、プリフェッチをしてもしなくても同じ効率にしかならないので、余分な回路ということになる。

実際問題として、シングルパイプラインではロード遅延とデータキャッシュミス以外では実行ステージ以降でのストールは発生せず、プリフェッチは、その回路規模の割には、性能は向上しないと思われる。しかし、2命令以上を同時に処理するスーパースカラにおいては、命令デコードの倍以上の速度で命令が処理されていくので、プリフェッチや投機的デコードの機構を用意しておかなければ命令供給が命令消費に追いつかなくなる。デカップル構造においてはスーパースカラの解説の章で詳しく説明する。

# 自己書き換えとパイプライン

昔,8086や68000というMPUが全盛だった頃,プログラムのコードサイズを削減するために,命令コード領域をストア命令で書き換えて実行するという技が重宝されていた。これは自己書き換えと呼ばれる手法である。

自己書き換えは、パイプラインを採用する MPU では期待どおりの動作をするとは限らない。それは、パイプラインのステージを考えれば明らかで、書き換えた命令のフェッチ(IF)は書き換える命令のライト(WB)以降でなければならないためで

# 〔図12〕命令書き換えのタイミング



ある. たとえば.

# IF RF EX MEM WB

という5ステージ構成では、最低5命令以後を書き換えなければ、そこを正しくフェッチできない(**図12**)。また、命令のプリフェッチを行う場合は、一概に何命令後を書き換えれば大丈夫かということは保証できない。書き換えた場所にジャンプすればよいという考えもある。この方法も、分岐予測などで命令フェッチが先行する場合は、うまくいかないことがある。

ところで最近の MPU は、命令キャッシュとデータキャッシュが分離されているので、単純に命令コードを書き換えることはできない。ストア命令を実行してもデータキャッシュの内容が変更されるだけで、命令キャッシュの内容は変わらないからである。

ただし、(OSに限られるが)特権命令を使えば、書き換えた アドレスに対応する命令キャッシュの内容を無効化することで、 自己書き換えを実現できる。もし、ライトバックキャッシュ構 成ならデータキャッシュを最初に強制的にライトバックさせる ことも必要である。

.....と、自己書き換えを推奨するような説明をしてみたが、 最近のプログラミングではこの技法は好ましくないものとされ ている. 現在では MMU が内蔵され、十分大きなアドレス空間 を使ってプログラムを作ることが可能なので、わざわざプログ ラムの流れを分かりにくくする自己書き換えを行う理由はない.

とはいえ、仮想記憶のデマンドページングで行われるスワップインは壮大な自己書き換えではないかと考えると、OSなら自己書き換えをしてもいいのかという話も出てくる。リアルタイム OS などのプログラムのダイナミックリンクも、自己書き換えに近い。

もっとも、有限オートマトンとしてのコンピュータを考えれ

# Column

# ウェーブパイプライン

バイプライン処理は、各ステージの処理を、通常、一つのクロックに同期させて進めていく、しかし、各ステージの純粋な処理時間は論理の複雑さに依存し、クロックで既定される時間ぎりぎりかか





る場合もあれば、クロックで既定される時間より早く終わる場合も ある

クロックのサイクルより短い時間でパイプラインのあるステージ が終了する場合,その空き時間をむだにしないような実装ができれ ば,相対的に処理時間を短縮することができ,見かけ上のクロック 周波数を向上することができる.

図Aを見てほしい、IF、RF、EX、DC、WBからなる5ステージのパイプラインを考える(MEM ステージはデータキャッシュアクセスなのでDCとしている)、図に示すように、各ステージの処理時間を仮定する。ここでは、IFとDCがキャッシュアクセスで、もっとも遅いステージになっている。RFがデコードステージでその次に遅い、EXとWBはレジスタアクセスなので比較的高速である。

従来のパイプライン方式では、 $\mathbf{ZA(a)}$ のように5クロックかけて1命令の処理が終了する。これを、ステージの空き時間を詰めていくと、 $\mathbf{ZA(b)}$ のように、4クロック程度で1命令の処理が終了する。処理時間が4/5になったのだから、同じ処理をする場合のスピードは1.25倍になる。つまり、見かけ上のクロック周波数は1.25倍になる。

しかし、MPUの動作はクロック同期が基本であるが、各ステージを駆動するクロックの周期(周波数)さえ一致していれば、各ステージを同じタイミングで処理しなくても、安定なパイプライン処理を維持することができる。単純には、ステージごとに独立なクロックを用意することが考えられる。図Bではパイプラインのステージ数と同じ5相クロックを用いたパイプラインを示す。

この場合、5系統のクロックの周波数は同一であり、IFステージは CLK1、RFステージは CLK2、EXステージは CLK3、DCステージは CLK4、WBステージは CLK5 に同期して動作している。このように多相クロックを用いることで、見かけ上のクロック周波数を向上できる。このようなパイプライン構造を**ウェーブパイプライン** (wave pipeline = 波打ったパイプライン) と呼ぶ。あるいは、最大レートパイプライン (maximum rate pipeline) と呼ばれ、文字どおり、パイプラインの処理速度を最大限に上げることができる。

ウェーブパイプラインを行うためには制限がある. 各ステージの

ば、自己書き換えができるのは当然の機能/属性である.プログラムで行う自己書き換えと OS のページングは粒度(書き換えから実行までの時間的空間的距離)の大きさの違いとして説明される.つまり、粒度の小さい自己書き換えは推奨されないということだ.

# まとめ

シングルバイプラインの概要について説明してきた。思えば ヘネパタは偉大だった。いうまでもないが Hennessy は MIPS RISC の生みの親、Patterson はバークレー RISC の生みの親で ある。この2人によって著わされたヘネパタは、日本の RISC メーカーの技術者に多大な影響を与えた。日立の SH シリーズ や NEC の V800 シリーズはヘネパタで示されたアーキテクチャ (とくにパイプライン)を参考にしているといわれている。それだけ DLX (R3000) のパイプラインが洗練されているということなのであろう。パイプラインの実例も、はからずも MIPS アーキテクチャの例が多くなってしまった。なおヘネパタは、日本語訳も出ているので、未読の方は一度は目を通すことをおすすめする。

次章では、実際の各種プロセッサにおけるパイプラインの構造について解説する.

なかもり・あきら フリーライタ



クロックが一致していない(ずれがある)ので、WBステージの前の結果をRFステージにフォワーディングすることが難しい(図C).フォワーディングができなくなると、見かけ上の動作周波数は向上しても、ハザードによりCPIが増加してしまう。ウェーブバイプラインは、ハザードが発生しにくい状況下で効果を発揮する.

ハザードが発生しにくい場合とは、どういう状況であろうか. これは、バイプラインに順次投入されていく命令間に依存性のない場合である. この例としてすぐに思いつくのは、多数のスレッドをバイプライン処理する場合である. スレッドとはプログラムのうちで並列実行できる部分を抽出したもの(ゆえに、多くの場合、依存性はない)である. たとえば、近年はやりのマルチメディアアプリケー

ションはスレッドに分解するのに適している。このため、ウェーブパイプラインは多くの場合、マルチスレッドの処理に適用される。

ウェーブパイプラインは、大学レベルでは多くの研究がなされているが、商用のものはまだ存在しない。これは多相クロックを使用するため、クロックの遅延を合わせ込むのが難しく、遅延解析に向かないためである。つまり、安定量産できるための回路設計は難しい。さらに、多相クロックの場合、論理合成が難しく、手作業による専用回路設計が必要になる。それにかける工数に比して利益の見込みが少ないので、企業が実践するには苦しいものがある。







RISC のパイプライン処理は、見事なまでにヘネシー&パターソンが提唱した 5 ステージのパイプラインにしたがっている。 MPU によっては、5 ステージでない場合 (部分的あるいは全面的なスーパーパイプライン) もあるが、基本は同じである。もっとも、これはシングルパイプラインの場合で、スーパースカラの場合は少し事情が異なる。ここではシングルパイプラインの代表ともいえる、R3000、SH シリーズ、ARM、V800 シリーズのパイプライン構造を解説する。 (筆者)



# R3000 のパイプライン

# RISC の基本そのままのパイプライン

R3000 のパイプラインは、基本的には前章の図 2 で示した RISC のパイプラインと同じである。IF、RF、EX、MEM、WB の 5 ステージで構成される。実際には  $\phi$  1、 $\phi$  2 の 2 相クロックで動作し、1 クロック間に 2 ステップの処理を行っている。 **図 1** に R3000 のパイプラインの詳細を示す。各ステージでの動作は、次のようになっている。

# 1) IF φ 1

マイクロ TLB (ITLB) を使用して命令の仮想アドレス (IVA) を物理アドレスに変換する. 分岐先アドレスは RF ステージの $\phi$ 2で計算され、EX ステージの $\phi$ 1でアドレス変換される.

# 2) IF $\varphi$ 2

物理アドレスを命令キャッシュに転送し、命令キャッシュを アクセスする(ICache).

# 3) RF φ1

命令キャッシュのヒット/ミスがチェックされ、命令キャッシュから命令を読み出す(ICache).

# 4) RF φ 2

命令をデコードする (ID). 分岐命令の場合は分岐先アドレスを計算する. レジスタファイルをリードする (RF).

# 5) EX $\varphi$ 1 + $\varphi$ 2

オペランドを他のパイプラインステージからバイパスし、演算する(ALU)、ストアするデータがあれば位置合わせを行う。

# 6) EX $\varphi$ 1

分岐命令なら TAKEN/NOT TAKEN を決定する。ロード/ストア命令ならオペランドの仮想アドレスを計算する(DVA).

# 7) EX φ2

ロード/ストア命令なら TLB を使用してオペランドの仮想アドレスを物理アドレスに変換する (DTLB).

## 8) MEM @ 1

ロード/ストア命令なら物理アドレスをデータキャッシュに 転送し、データキャッシュをアクセスする(DCache).

# 9) MEM φ2

データキャッシュのヒット/ミスがチェックされ、命令キャッシュからオペランドを読み出す(DCache).

# 10) WB **@**1

EXステージでの演算結果をレジスタファイルに書き込む (WB). ストア命令の場合はデータキャッシュに書き込む.

# • 単相クロック動作の R3000

後年、R3000 相当の IP コアを提供する目的で、パイプラインを見直した 4Kc (Jade)、4KEc (Emerald)、5Kc (Opal) など (これらはコアの名称) は、単相クロック同期に変更しているが、基本的なパイプライン構造に変更はない。 図 2 に R3000 と Jade のパ

# 〔図 1〕R3000のパイプライン



DVA DTLB

**DCache** 

IVA: Instruction Virtual Address Generation ITLB: Instruction TLB Access (Address Translation)

ICache: Instruction Cache Access

ID: Instruction Decode RF: Register File Access ALU: ALU Operation

DVA: Data Virtual Address Generation

DTLB: Data TLB Access (Address Translation)

DCache: Data Cache Access

WB: Writeback

イプラインの比較を示す. R3000 のパイプラインが図1と一部異なっているが, 図1 は説明用に簡略化したもので, 図2 は現実に近いものと理解すればいいだろう.

図2に示すように、単相クロックでの 再設計を考えた場合、R3000 は多くのク リティカルな操作(命令キャッシュアクセ ス、レジスタリード、データ TLB 参照) をパイプラインクロックの立ち下りエッ ジに同期して行っている。また、データ キャッシュアクセスはクロックの立ち上 がり同期であり、データキャッシュから リードしたデータの位置合わせ(図2の LA)を同じパイプラインステージ内で行 うので、タイミングはかなり厳しい、命 令のアドレス計算も、命令キャッシュア クセスの前後に、二つの1/2サイクルのア クセス(IA1, IA2)に分割して行われるの で、制御が複雑になる。これらが、IPコ アとして容易に論理合成を行うためのボ トルネックになっている。また、SRAM

(キャッシュ)のアクセスタイミングも厳しく, キャッシュをメモリコンパイラなどで自動生成するのが困難である.

このため、Jadeではパイプラインが再設計された。具体的には、すべての操作を1フェーズ早めてクロックの立ち上がり同期にした。さらに、命令TLBアクセスとデータキャッシュアクセスを1ステージ早くして、リードデータの位置合わせをキャッシュアクセスと別のステージにもっていった。結果として、すべてのクリティカルな操作は立ち上がりエッジ同期になった。命令のアドレス計算は、命令キャッシュアクセス後の、一つのパイプラインステージに統合された。これらの結果、データキャッシュアクセスのタイミングに余裕ができた。

図2からわかるように、レジスタファイルへのライトを位置合わせの直後(立ち下がり同期)にすることで、パイプラインステージ数を5ステージから4ステージにすることも可能である。しかし、Jadeではクロックの立ち上がり同期にこだわり、結果として5ステージのパイプラインとなっている。

# • Jade パイプラインの利点

Jade パイプラインは三つの利点があるといわれている。一つ目は、キャッシュアクセスに余裕があること。二つ目は、クリティカルな操作がすべて立ち上がり同期になっているので、ある論理ブロックをユーザーが設計した論理に置き換えることが容易なことである。三つ目は、論理合成ツールによる遅延の調整が容易になることである。本来、論理合成を想定した機能設計は、クロック遅延のばらつき(クロックスキュー)を一定値内に収める操作を容易にするために、クロックの立ち上がりエッジのみを使用する。これを実践したわけだ。

# 〔図 2〕 R3000 と Jade のパイプライン比較



MIPS の発表によると、 $0.25 \mu m$  プロセスで製造した場合の動作周波数は、最悪の場合 (単純な論理合成)で  $100 \sim 150 MHz$ 、典型的な場合 (専用設計)で  $150 \sim 255 MHz$  だそうである。 クリティカルな操作を立ち上がり同期にしたとはいえ、パイプライン効率は  $R_{3000}$  のそれと大差がないのも事実で、この動作周波数が可能なのか否かは実際に回路設計した人にしかわからないだろう。

MIPS は Jade の拡張版の 4KEc (コードネーム Emerald)で MIPS16 命令セットに対応すると発表した。しかし、その実装 方法たるや、1段のデコードステージ内で MIPS16 から MIPS32 へのコード変換を行ってデコードするという、非常に厳しいタイミングを提唱している。Jade 開発当時の理念はどこへ行ってしまったのだろうか。もっとも、4Kc と 4KEc の構造的な違いは、低消費電力を実現するゲーテッドクロックを行うか行わないかの違いだけである。

なお, 先頃発表された PSP (PlayStation Portable) の CPU コアは 4Kc または 4KEc であって, R4000 系ではない.

# • Opal のパイプライン

Opal ではさらにパイプラインが変更された。Opal のパイプラインは IF, Dispatch, RF, EX, MEM, WB の 6 ステージで構成され,  $\phi$  1,  $\phi$  2 の 2 相クロックで動作するとされている。しかし、論理合成を容易にするために単相クロックを採用しつつも説明上の方便で $\phi$  1,  $\phi$  2 を使用しているのではないかと思われる。

Opal 自身はスカラプロセッサだが、スーパースカラへの移行の可能性を残している。つまり、ディスパッチステージが命令フェッチとレジスタリード/命令デコードステージの間に挿入

された. このためパイプラインは、Jade より1ステージ多い6ステージとなる. これは、将来的には、複数の演算ユニットに命令をディスパッチ(発行)するために使用する. 命令デコード自体にも余裕ができるので、動作周波数が少し向上する. また、この追加ステージは MIPS16 のためのプリデコードステージとしても利用できる.

パイプラインのステージ数が増加することで分岐の性能が悪くなるが、Opalでは静的な分岐予測と命令プリフェッチで対応している。分岐はすべて TAKEN するものと仮定し、投機的に6命令をフェッチできる。分岐予測が外れた場合のペナルティは1サイクルにすぎないという(筆者としては懐疑的)。Opalのパイプラインの詳細を以下に示す。

# 1) IF $\varphi$ 1 + $\varphi$ 2

命令キャッシュにアクセスする (ICache). 命令の仮想アドレス は Dispatch ステージ (IA1) と RF ステージ (IA2) で計算される.

## 2) IF φ 2

マイクロ TLB にアクセスし、命令の仮想アドレスを物理アドレスに変換する (ITLB).

# 3) Dispatch $\varphi 1 + \varphi 2$

命令キャッシュのヒット/ミスをチェックする(WS: Way Select). スーパースカラ構成を採るための命令ディスパッチ用のタイミングを提供する(Dispatch). MIPS16をサポートする場合のプリデコードタイミングを提供する(MIPS16). 次の命令のための命令の仮想アドレスを用意する(IA1).

# 4) RF $\varphi$ 1 + $\varphi$ 2

レジスタをフェッチする(RF). 命令をデコードする(ID).

# 5) RF φ 1

分岐先の仮想アドレスを計算する(IA2).

# 6) EX $\varphi$ 1 + $\varphi$ 2

演算を行う(ALU).

# 7) EX $\varphi$ 1

ロード/ストア命令のオペランドアドレスを計算する(DA).

# 8) EX **\$\phi\$** 2

データキャッシュへのアクセス (DCache). 1段目.

# 9) MEM @ 1

オペランドの仮想アドレスを物理アドレスに変換する(DTLB). データキャッシュへのアクセス(DCache). 2段目.

# 10) MEM @ 2

データキャッシュのヒット/ミスをチェックする(WS). データキャッシュからフェッチしたデータ, データキャッシュにストアするデータの位置合わせをする(LA).

# 11) WB $\omega$ 1 + $\omega$ 2

EXステージでの演算結果をレジスタファイルに書き込む (WB)、ストア命令の場合はデータキャッシュに書き込む、

• Jade と Opal の性能 ... ... どちらが高い?

MIPS の発表によると、Opal を  $0.15 \mu m$  プロセスで製造した場合の動作周波数は 450 MHz、 $0.18 \mu m$  プロセスでは 375 MHz

だそうである。Opalでは、Jadeでわざわざ立ち上がり同期に 揃えたデータキャッシュアクセスが立ち下がり同期に変更され ていることもあり、スーパーパイプライン構造も採用していな いので、本当にこんな高周波数で動作可能かは不明である。

さらに MIPS の発表によると、Jade と Opal の性能 (MIPS/MHz) はどちらも、Dhrystone MIPS で 1.2 であるという。これは R3000 とほぼ同じ性能である。Opal に関しては、パイプライン のステージ数が増えているのに、Jade と同じ性能というのは納 得がいかない。4KEc の発表では MIPS/MHz を 1.7 としていた。Jade と実体は同じなのに、この性能アップの理由は不明である。そもそも 1.7 という値はスーパースカラでないと実現できない。

それは置いておくとしても、同じ性能のIPコアが二つも必要なのかという疑問が残る。MIPSの弁明では、Dhrystoneベンチマークでは真の性能はわからない、実際のアプリケーションではOpalはJadeの2倍の性能があるという。これはキャッシュ容量を2倍にできる点と、64ビット演算と32ビット演算の差と説明されているが……

Jade にしろ Opal にしろ、論理合成可能な RTL (Register Transfer Level) 記述で提供されるのだが、目標動作周波数が達成できるか否かは、LSI 製造メーカーの技術力によると思う. しかし MIPS 社の説明では、Jade にしろ Opal にしろ、何も特別なことを行っているわけではなく、誰が作っても 200MHz以上の性能は保証するとしている。また、Dhrystone ベンチマークの値が異様に高い理由としては、アーキテクチャをDhrystone に特化しているらしい。実アプリケーションではあまり効果がないが、Dhrystone MIPS の値は採用の決め手になることが多いので、あえてそのような構造にしているという.



# SH-1/SH-2/SH-3, そして SH-5

# 16 ビット固定長命令 RISC

SHシリーズは日立製作所が 1992 年に発売した,組み込み用途をねらった RISC型 32 ビットマイクロコントローラとして誕生した。その後、積和演算や MMU を内蔵し、MPUとしての地位を確実にしている。多くの RISC が 32 ビットの固定長命令であるのに対して、SHシリーズは 16 ビット固定長命令を採用しコードサイズの削減を図っている。

SHシリーズは DLX ( $R_3000$ ) のパイプラインを参考にしている といわれるが、命令によってパイプラインのステージ数が異なっている点で、CISC の考え方を引きずっているようにも思える.

パイプラインは、次の5ステージから構成される。ステージ構成だけを見れば、R3000と同一である。また、遅延分岐は採用しているが、遅延ロードは採用せずデータハザードが生じる場合はインタロックする。

1) IF: 命令フェッチ

2) ID: 命令デコード

3) EX:命令実行

#### 4) MA:メモリアクセス

#### 5) WB:ライトバック

IF, ID, EXの3ステージはすべての命令に存在するが、命令によっては、MA、WBステージがない場合もある。おもなパイプラインを図3に示す。図を見るとわかるが、パイプラインは SH-1/SH-2 と SH-3 で少し異なっている。レジスタ-レジスタ間演算(転送を含む)は、SH-1/SH-2 では IF, ID, EXの3ステージで構成されるが、SH-3 ではデータを保持するだけの MAステージと、レジスタへ値をライトするための WBステージが追加されて5ステージ構成になっている。

これらの命令において、SH-1/SH-2/SH-3とも、レジスタの リードはEXステージで行っているようである。そして、演算 を行った結果は、SH-1/SH-2ではEXステージのうちに、SH-3ではWBステージでレジスタにライトするようである。

R3000 のパイプラインを参考にした(といわれる)わりには、EX ステージまでレジスタリードを遅延させたり、SH-1/SH-2では演算結果を EX ステージでレジスタにライトさせたりするなど、タイミング的に厳しい設計になっている。これは、レジスタのフォワーディングをまったく行っていないか、フォワーディングの論理を軽くするためと推測される。もっとも、SH-4では ID ステージでレジスタをリードするようになったようで、試行錯誤の痕跡が認められる。

さて、ロード命令はパイプラインの5ステージすべてを使う、WBステージは、最初はロードしたデータをレジスタにライトするためだけに存在していたようだ。SH-3ではレジスタ-レジスタ演算にも適用された。一方、ストア命令はレジスタへのライトがないのでWBステージが存在しない。いずれにせよ、命令の種類に応じてパイプラインのステージ数を可変にするのはCISCの発想である。実質的にはパイプラインのスループットは、最大のステージ数に支配されるのであまり効果はない。

SH-3 ではそのことに気づいてか、パイプラインがほとんどの命令で5ステージ固定に改善されたが、ストア命令がなぜ4ステージのままなのかは謎である.

#### • SH-5

SH-4では性能向上のためにスーパースカラ構成を採用したが、1999年に発表された SH-5ではシングルパイプラインに戻した。400MHz動作を達成するためには、スーパースカラの制御の複雑さがスピード上のネックになるという理由からだ。

SH-5のパイプラインは、

1) Fetch-1(F1): 命令フェッチ

2) Fetch-Decode (FD): 命令フェッチ&デコード

3) Decode(D):デコード

4) Execute-1(E1): 実行

5) Execute-2(E2): 実行

6) Execute-3(E3):実行

Writeback(W): ライトバック

の7ステージで構成される.

#### 〔図3〕SHのパイプライン

SH-4のパイプライン(参考)

レジスタ-レジスタ間演算 SH-1/SH-2 ΙF ID EX SH-3 ΙF EX MA WB ID ロード命令 SH-1/SH-2/SH-3 ΙF ID EX MA WB ストア命令 SH-1/SH-2/SH-3 ΙF ID EX MA

 $E_1$ ,  $E_2$ ,  $E_3$ ステージからDステージへのフォワーディングが可能だというが,だったらSH-4までは「フォワーディングを行っていなかったのか」と突っ込みたくなるが,RISCであるからには,そんなはずはないだろう.

I D

EX MA

S

E2 | E3

W

パイプラインのステージ数の増加にともなう分岐命令の性能低下を補うため、SH-5では Split Branch (分割分岐とでも訳すか?)という方式を採用している。これは、分岐先アドレスを計算して命令プリフェッチを行っておき、実際の分岐命令でその命令を実行するという 2 段階の構造で分岐命令処理を実現する。そのために PTA (Prepare Target Address)という命令が用意された。

1999年に発表された SH-5 であるが、2002年になって初めて 展覧会などでプロトタイプのデモが行われるようになった. 動 作周波数は 400 MHz にはほど遠い 256 MHz である. SH-6 や SH-7についても計画が発表されているが、ここでは省略する.



# ARM/StrongARM/XScale

#### • ARM7までとARM8

最初のARMアーキテクチャのMPUが開発された当時、RISCはスタンフォード大学のMIPSと、カリフォルニア大学バークレー校のRISCI、II(SPARCの母体)しか例がなかった。ARMはバークレーRISCを参考にして設計された。ロード/ストアアーキテクチャ、32 ビット固定長命令、3 オペランドフォーマットという特徴を採り入れたが、レジスタウィンドウ、遅延分岐、全命令の1クロック実行は採用しなかった(ほとんどの命令は1クロックで実行するが)。設計目標は、CISCライクな命令セットをRISCに準じた単純なハードウェアで実行することに置いている。命令セットの特徴はソースオペランドをシフトした後に演算可能なこと、ほとんどすべての命令が条件コードを変更し、条件コードに応じた処理が可能なことである。

ARM には ARM1  $\sim$  7, ARM8, Strong ARM とアーキテクチャに若干の差異がある。ARM1  $\sim$  7 は単純な 3 ステージのパイプラインを基本としていたが、その後改良が重ねられ、ARM8で標準的な 5 ステージのパイプラインにたどり着く。

#### 〔図4〕ARM系プロセッサのパイプライン



(d) XScaleのパイプライン

#### 〔図5〕ARM9/ARM10のパイプライン



ARM8では、パイプラインへの命令供給のバンド幅を向上させるため、命令のプリフェッチを行いバッファリングする。初代のARM8のプリフェッチユニットには静的な分岐予測機能も内蔵されていたという。図4(b)にARM8のブロック構成を示す。パイプラインは次の5ステージから構成される。

- 1) 命令プリフェッチ
- 2) 命令デコード、レジスタリード
- 3) 実行(シフトと演算)
- 4) メモリアクセス
- 5) ライトバック
- ARM9/ARM10

ARM8 の後継である ARM9 のパイプラインは、ARM8 とほとんど同じである。その後継の ARM10 ではパイプラインに変更が加えられた(図5). つまり、高い動作周波数を実現するために、デコード部と実行部のステージを 2 段に分割している。キャッシュアクセスは 1.5 段分をかけてアクセス時間に余裕をも

たせている。また、アドレス計算用の加算器を専用にもち、ロード/ストアのパイプラインを整数演算系と分離している。これにより、データキャッシュはノンブロッキング(ヒットアンダミス)が可能になっている。さらに ARM10 では、パイプラインのステージ数増加による性能低下(CPIの増加)を低減するため、動的な分岐予測が採用された。ARM社は、これにより ARM10は ARM9と同等な CPI が得られるとしている。

#### StrongARM

ARM のパイプラインは ARM 社と DEC 社が

共同開発した Strong ARM (現在は Intel 社に買収されている) で一応の完成を見る。キャッシュの構成が命令とデータに分割された(命令とオペランドフェッチで待ち合わせが生じない) こととレジスタのフォワーディング機能が追加されたのが特筆すべき特徴である。パイプラインは次の5ステージで構成される.

- 1) 命令フェッチ(命令キャッシュから)
- 2) 命令デコードとレジスタリード、分岐先のアドレス計算
- 3) オペランドのアドレス計算、またはシフトおよび演算を実行
- 4) データキャッシュへのアクセス
- 5) レジスタファイルへ結果をライトバック

図4(c)に Strong ARM のパイプライン構成図を示す。

ARM のパイプラインも命令ごとに可変なステージ数から始まり、結果として5ステージに落ちついたようである。やはり、5ステージというのが RISC のパイプラインの王道といえるのかもしれない(少なくともこれまでは).

#### XScale

Intelから発表された XScale (かつては Strong ARM2 と呼ば

れた)では、600MHz(当初の目標)という高い動作周波数を実現するため、再びパイプラインの見直しがなされた。結果、整数演算で7ステージ、ロード/ストアで8ステージという構成になった〔図4(d)〕。ステージ数はそれほど多くはないが、インテルはこれをスーパーパイプラインと呼んでいる。

パイプラインが2ステージ増えた理由は、おもに2本のクリティカルパス(タイミングネックになる論理経路)対策のためである。一つ目はALU演算である。従来のStrongARMでは1クロックで

シフト→ALU演算→条件コードの生成を行っていた。これを3ステージに分割して処理する。こうすることにより、命令デコードにも余裕ができた。従来は命令デコードとレジスタアクセスを1クロックで行っていたが、

レジスタアクセス→シフト

のタイミングを、従来より、遅らせて余裕をもたせている.

二つ目はデータキャッシュのアクセスである. データキャッシュは, 従来は,

アドレスデコード→キャッシュアクセス→

データの整列→ ALU へ入力

を1クロックで行っていた。XScale ではデータキャッシュが従来の2倍の32K バイトになったので,一度に動作する回路が多くなりクリティカルパスになった.そこでデータキャッシュアクセスを2クロック(2ステージ)で行うように改良した.

XScale ではパイプラインのステージが増加したため、分岐命令の性能低下(当然、分岐予測機構は備えている)などを考慮すると CPI が  $5\sim8$  %増加するが、周波数を 1.5 倍に向上することで、差し引き 40 %程度の性能向上となる。なお、分岐ターゲットバッファは 128 エントリからなるダイレクトマップキャッシュで、2 ビットの情報で分岐の履歴を管理する。

#### • ARM11

一方、ARM 社は 2002 年 4 月に ARM11 の概要を発表した。 8 ステージのシングルパイプラインで 350~ 500MHz 動作を目指す。明らかに XScale 対抗が見てとれる。図 6 に ARM11 のパイプラインを示す。ARM アーキテクチャのクリティカルパスは、XScale でも説明したが、シフト + ALU の同時実行、キャッシュアクセス、そして MMU にある。これらのステージを独立化することで、高速動作を実現できる。基本的な考え方は XScale のパイプラインとよく似ている。



# V800 シリーズ

V800 シリーズは NEC が V80 の後継として開発した、どちらかといえば、マイクロコントローラといえる MPU シリーズで

#### 〔図 6〕ARM11 のパイプライン



ある。その開発目標は、低価格で低消費電力のチップであった。 V800 シリーズでは基本の命令長を 16 ビットとしながらも、大きいビット数のイミディエート値やディスプレースメントの指定でコード効率を上げるために、32 ビットの命令長も用意している。ちょうど SH と ARM の中間のようなアーキテクチャである。

V800 シリーズは、1992 年に最初の V810 が開発され、その後 V830、V850 が続いて開発された、現在は、これらの MPU を CPU コアとした周辺内蔵品が販売されている.

V810のパイプラインに関しては、ユーザーズマニュアルには記載されていない。しかし、当時の雑誌の解説記事によると、フェッチ、デコード、実行、書き込み

という典型的(と記述されている)な RISC のパイプラインに対し、デコードと実行の間にレジスタリードのステージを挿入した、

- 1) フェッチ
- 2) デコード
- 3) レジスタリード
- 4) 実行
- 5) 書き込み

という構成だという。これは、可変長の命令フォーマットをデコードするのに長い処理時間が必要であり、デコードに余裕をもたせるためと説明されている。合計5ステージ構成のパイプラインであるが、これは33MHz以上の動作周波数を想定したものであり、25MHzの動作周波数ではレジスタリードのステージは結果として不要だったようだ。

しかし, このパイプライン構成では, ロード/ストア命令でのオペランドフェッチステージがない. おそらく, ロード/ストア命令の処理時には6ステージになるのであろう.

その後、V830/V850になるとパイプラインの見直しが行われ、

IF:命令フェッチ

2) RF: 命令デコード

3) EX: 実行

4) MEM: オペランドアクセス

5) WB: ライトバック

という5ステージのパイプラインになった。これは何度も説明している典型的なRISCのパイプラインと同じで,とくに取り立てていうこともない。ただ1点,分岐命令は,TAKENする場合,EXステージの終了を待ってIFステージを開始する。これは前章の図9(c)と同じである。明らかに分岐先のアドレス計算から命令フェッチまでに時間的余裕をもたせているのがわかる。このため,分岐命令のレイテンシは3クロック(NOTAKENの場合は1クロック)になる。

V800シリーズでは遅延分岐を採用しないため、分岐が多いプログラムの処理は不利になる。また、歴史的には占いMPUのせいか、分岐予測機構も採用していない。シンプルイズベストという考え方なのだろう。



## R4000

R4000 はスーパーパイプライン構造を採用し、高い動作周波数で動作させることを目的としている。パイプラインはIF、IS、RF、EX、DF、DS、TC、WBの8ステージで構成され、(筆者予想では)単相クロックに同期して動作する。**図7**に R4000のパイプラインの詳細を示す。各ステージでの動作は次のようになっている。

#### 1) IF

命令フェッチ1段目.命令の仮想アドレスが命令キャッシュと TLBに転送される.

#### 2) IS

命令フェッチ2段目.命令キャッシュが命令を出力し、同時に

#### 〔図7〕R4000のパイプライン

|     | IF   | IS     | RF  | EX  | DF  | DS      | TC   | WB |
|-----|------|--------|-----|-----|-----|---------|------|----|
|     |      |        |     |     |     |         |      |    |
|     | ICa  | che    | ID  | ALU | DCa | iche    | TC   | WB |
| IVA | IT   | LB     | RF  | DVA | DT  | LB      |      |    |
|     |      |        | TC  |     |     |         |      |    |
|     | ICac | he Acc | ess |     | DCa | iche Ac | cess |    |

IF: ICache First

IS : ICache Second

S - ICache Second RF : Register File

RF: Register File

EX : Execute

DF : DCache First DS : DCache Second

TC : Cache Tag Check WB : Writeback IVA: Instruction Virtual Address ICache: ICache Access

ITLB : Instruction TLB
ID : Instruction Decode
ALU : ALU Operation

DVA: Data Virtual Address DCache: DCache Access

DTLB: Data TLB

TLB は命令の物理アドレスを出力する.

#### 3) RF

レジスタファイル、次の3動作が並行に行われる。

- a) 命令をデコードし、インタロック条件をチェックする
- b) 命令キャッシュのヒット/ミスがチェックされる
- c) レジスタファイルからオペランドをフェッチする

#### 4) EX

命令実行、次の3動作の一つが実行される。

- a) 命令がレジスタ-レジスタ間命令なら演算を実行する
- b) 命令がロード/ストア命令ならオペランドの仮想アドレス を計算する
- c) 命令が分岐命令なら、分岐先の仮想アドレスを計算する. 同時に分岐の TAKEN/NOT TAKEN を決定する

#### 5) DF

データキャッシュ1段目. オペランドの仮想アドレスがデータキャッシュと TLB に転送される.

#### 6) DS

データキャッシュ2段目. データキャッシュが値を出力する. 同時に TLB はオペランドの物理アドレスを出力する.

#### 7) TC

タグチェック. ロード/ストア命令の場合, データキャッシュ のヒット/ミスをチェックする.

#### 8) WB

ライトバック. 命令の実行結果をレジスタファイルに書き込む. ストア命令の場合はデータキャッシュに書き込む.

R4000 の各パイプラインステージは基本的には1クロックであるが、時間がかかるキャッシュアクセスには時間をかけている(タグチェックを含めて3クロック). R4000 の発表当時はスーパーパイプラインとしてクローズアップされたが、現在においてはごく普通のパイプライン構成である.

R4000ではパイプラインが8ステージになったため、分岐命令の実行時に3クロック、ロード命令の実行時に2クロックの遅延スロットが生じる。分岐命令においてはR3000と互換性をもたせるため遅延スロットの1命令分は実行するが、残りの2クロックはバブル(むだな時間)になる。分岐命令の実行時間がR3000の1クロックから3クロックになった(遅延スロットを含まない)と思えばよい。

ロード命令においては遅延スロットに相当する後続2命令がロード命令のデスティネーションオペランドと一致している場合はインタロックが生じる. つまり、R4000では遅延ロードを採用しない. さすがに、ロード命令とその結果を使用する命令の間を2命令分も空けるのは現実的でないと考えたのであろう.

分岐命令の実行時間を短縮するため、R4000では Likely 分岐 (Branch Likely) が導入された。Likely 分岐とは、分岐条件が成立するときのみ遅延スロットの命令を実行する条件分岐命令である。分岐条件が成立しなければ遅延スロットは無効化される。遅延スロットに NOP 命令があると考えてもよい。分岐





IF: ICache First Access
IS: ICache Second Access
RF: Register File Read
AG: Address Generation
EX: Execute
MS: Multiply/Shift
DCache: DCache Access
Sel: Cache Way Select

ER: Extend/Rotate WB: Writeback

命令がループ処理の終わりにあるような場合、分岐命令を Likelyにして分岐先の1命令を遅延スロットに置けば、ループ 内の命令が1命令減少するので、実質的に分岐命令の実行時間 を短縮できる。これは一種の(静的な)分岐予測とみなすことも できる。

Likely 分岐は R4000 以降の MIPS アーキテクチャで採用されているが、スーパースカラ構造では実装が難しいせいか、将来的には削除したい意向だという。その前兆か、MIPS-3D という拡張アーキテクチャで採用された、bc1any2、bc1any4 という条件分岐命令では Likely 分岐が定義されていない(命令コード的には割り当て可能だが)。

# 6

# Topaz (24K) のパイプライン

それまで MIPS 社は IP コアビジネスに注力してきたが、2003 年 6 月に方向転換を行った.従来、32 ビットアーキテクチャの MIPS32 と 64 ビットアーキテクチャの MIPS64 の 2 系統のアーキテクチャを管理してきたが、64 ビットアーキテクチャの需要 がないのか、32 ビットに特化するようになった.それまで、MIPS64 系の IP コアとしては、5 K(Opal)、2 o K(Ruby)、25 K(Amethyst) が存在したが、最新のロードマップには5 K のみが掲載されている.従来、2 O K や 25 K があった位置には、新たに2 4 K(Topaz) が掲載されている.2 4 K という名称からも、性能的に、25 K を置き換えるという意味合いが感じられる.

24K は、6月 17日に発表した MIPS32 アーキテクチャの論理合成可能な IP コアである。8 ステージのシングルパイプラインで動作周波数目標は  $400 \sim 500 MHz$  である。最初からマルチプロセッサに対応し(キャッシュは MESI アルゴリズム)、マルチコアで性能向上を目指す。2004 年からライセンスを開始する。

MIPS 社から発表された 24K のパイプラインを図8に示す. パイプライン自体には不明な点が多いが、とりあえず発表された情報を説明する.

#### 1) IF

命令キャッシュ第1段階.

#### 2) IS

命令キャッシュ第2段階. 最大64Kバイトの4ウェイキャッシュに対応(16Kバイト/1ウェイ)し、命令キャッシュは2サイ

クルのレイテンシ(RAM アクセスに1サイクル,タグチェックとウェイ選択に1サイクル)でアクセスする。命令キャッシュからは2命令を同時にフェッチ可能で、結果は6エントリの命令キューに格納される。これにより、命令フェッチと実行がデカップル構成になり、高い命令発行レートを維持できる。最大2命令までのノンブロックリードが可能であり、命令キャッシュへのリフィル時間を最適化できる。動的な分岐予測(512エントリの分岐履歴テーブル)、4エントリのリターンスタックを備える。分岐予測ミス時のペナルティは4クロックである。

#### 3) RF

レジスタファイルへのアクセス。

#### 4) AG

アドレス生成および命令発行を行う.整数演算とメモリパイプラインを分離することで,データキャッシュは4エントリのノンブロックリードに対応する.なぜ整数パイプラインにアドレス生成が必要かは,不明(分岐アドレスの生成用か).

#### 5) EX

命令実行。

#### 6) MS

乗算命令とシフト命令処理用の追加ステージ. 32 ビット×32 ビットの乗算が、1 クロックのリピートレート、5 クロックのレイテンシで実行できる.

### 7) ER

結果の整列(ローテート)と符号/ゼロ拡張を行うステージ.

#### 8) DCache

データキャッシュへのアクセス.クリティカルワードをフォワーディング可能(キャッシュバイパス).

#### 9) Sel

データキャッシュのタグチェックとウェイ選択。

#### 10) WB

結果をレジスタヘライトバック.

24Kのパイプラインの特徴としては、将来の高速動作を見越して、命令フェッチとデコードをデカップル構成にしたことであろう。シングルパイプラインでは珍しい。

なかもり・あきら フリーライタ

#### はじめに

ほとんどの MPU がもっていてマニュアルには通常記載されていない機能に、エミュレーション機能がある(デバッグ機能ともいう).

ほかのアーキテクチャの命令コードを実行することもエミュレーションというが、ここではデバッガである ICE (In-Circuit Emulator)を実現する機能のことを指すこととする。本稿では、エミュレーション機能の概略を説明する。

#### • ICEとは

ICEとは、一言でいうとデバッガである。しかし、いわゆるソフトウェアのみで実現されている GDB のようなデバッガと違い、リアルタイム (実時間) エミュレーションが可能である。これは、実チップをターゲットシステムに実装してエミュレーションを行うことにより、実デバイスと同じ AC 特性や DC 特性を実現したままのデバッグを可能にするものである。つまり、実チップと同じタイミングや環境でデバッグができる。

ICE は、実チップの代わりに専用プローブを実際のボードに差し込むことで、実チップの動作をエミュレートする(図 A). ユーザーからは、ICE というシステムが一つの実チップに見える.

その昔(今でも?), ICE は高価だったので、それを代替する手段もいくつか考えられている。たとえば、ロジックアナライザ(ロジアナ)をエミュレータの代わりにデバッガとして使う手法である。ロジアナで取り込んだバスサイクルを逆アセンブルして、実行する命令列を表示するソフトウェアはけっこう活用されていた。しかし、この手法はICE にはかなわない。

#### エミュレーション機能とは

エミュレーション機能とは、ICE を実現するために MPU が提供する機能のことである。デバッグ機能ともいう。具体的には、アドレスやデータの値によるトラップ機能 (ハードウェアブレーク) や命令実行のトレース機能を指す。MMU を内蔵する MPU では仮想アドレスを出力する機能もある。ハードウェアブレークとは、ブレークポイ

#### 〔図A〕ICEの構成



ント命令をプログラムに埋め込んで、そこを通過した場合にブレークする、ソフトウェアブレークとは対称的に、ハードウェア自身が備えるブレーク機能のことである.

エミュレーション機能を実現するためには専用端子が必要なので、通常のチップ (通称本チップ)よりも端子数を増やしたエバリュエーションチップ (通称エバチップ) が製造される場合もあるが、基本的には本チップとエバチップは同一のダイ (チップ) であることが多い、つまり、外部端子に接続されてないだけで、ユーザーが手にする本チップもエミュレーション機能を内蔵している。しかし、その機能の使い方を知る方法はない。エバチップは、ICEメーカーに対して出荷される専用チップである。

最近の流行は、エバチップを作らず、本チップにエミュレーション機能を内蔵させることである。この場合は、ユーザーがその機能を使おうと思えば使うことも可能である。ただし、エミュレーション機能の詳細はICEメーカー以外には公開されないのが普通なので、現実にユーザーが利用するのは難しい。

#### ● フォアグラウンドモニタとバックグラウンドモニタ

GDB などの通常のソフトウェアデバッガと ICE とが決定的に異なるのは、制御プログラムがユーザーの資源を占有するか否かである.ソフトウェアデバッガはユーザーのメモリ空間にロードされ、一つのタスクとして目的のプログラムをデバッグする.しかし ICE は、通常は、制御プログラムのためにユーザーのメモリ空間を必要としない.これは、より現実に近い環境でプログラムをデバッグできるという利点のほかに、プラットホームの立ち上げ時、ボードに ROM やRAM がまだ実装されてない段階でも、プログラムを実行することができるという利点がある.

ICE は二度美味しい、ボード設計の段階ではハードウェア屋が、ROMやRAM、あるいは外部 I/O などに正常にアクセスできるかという、ボードのハードウェアのデバッグに使用できる。ROMやRAM上にプログラムが存在する必要はない、ボードが完成したあとは、ソフトウェア屋がソフトウェアをデバッグするのに使用できる。ソフトウェアのデバッグにおいては、ソフトウェアデバッガで十分という意見もあるかもしれない。しかし、ICEを使えば、ブレークポイント命令を埋め込むことのできない ROM 領域でブレークさせることもできるし、ある特定のアドレスに対してロードやストアを行った場合にブレークさせることもできる。あるいは、実時間で命令実行のトレースを行える。

さて、ICE の制御プログラム(モニタプログラム)はユーザー空間とは別の空間に置かれる。これは、ハードウェアブレーク発生時に、専用端子を活性化することで、ハードウェア的にアドレス空間の切り替えを行うことで実現される[図B(a)]。あるいは、モニタプログラムを実行するための特殊な空間がMPUに内蔵されている場合もある。このような方式をバックグラウンドモニタと呼ぶ。簡易的なICEでは、モニタプログラムをユーザー空間に置く場合もある[図B(b)]。

70 Interface Oct. 2003

# エミュレーション機能 の基礎

このような方式をフォアグラウンドモニタと呼ぶ.

#### ● キャッシュ非内蔵時のエミュレーション機能

MPUの提供するエミュレーション機能は、MPUがキャッシュを内蔵しない場合とする場合で若干異なる。まずは、キャッシュを内蔵しないMPUが提供する、・世代前のエミュレーション機能について解説する。

#### (1) アドレストラップとデータトラップ

これは、MPUがアクセスするアドレスを指定してトラップを発生させる機能である。トラップが発生した後、制御はICEのモニタプログラムに移る。

キャッシュを内蔵しない場合、すべてのアクセスは外部バスに出力される。このため、バスサイクルを監視する機構を設けておけばアドレストラップを実現するのは難しくない。目的のアドレスやデータが出力されたら、ICE 空間に移行させるための強制プレーク機能をMPUが備えていればよい。

より細かい条件でトラップを発生させるためには、現在起動されているバスサイクルの種類を表示するステータス出力があればよい。

#### (2) ステップ実行

1命令ずつ実行しながらレジスタ内容やステータスを表示する機能である.この機能は、アドレストラップを次の命令のアドレスに設定することで実現する.

#### (3) 仮想アドレス出力

本チップには端子数の制限から、仮想アドレスを出力する機能はない. しかしエバチップには、物理アドレスと同時に仮想アドレスを出力する機能がある.

専用のエバチップなしで仮想アドレスを出力するための手法としては、バスサイクルごとに仮想アドレスと物理アドレスを時分割で出力することが考えられる。しかし、本チップでは仮想アドレスの出力を行わないため、本チップとエバチップ(もしくはエミュレーションモード)でタイミングに差異が出るという欠点がある。

#### (4) トレース機能

トレース機能は、プログラムのデバッグには非常に有用な機能であるが、実現は難しくない。数十MHz以上で変化するMPUの状態をリアルタイムでユーザーが認識することは不可能なので、トレース機能はある程度までを実行した後に、そこまでの実行履歴を調べる場合に使用する。したがって、バスサイクルの出力をそのまま保存しておくことができれば、あとはソフトウェアでどうにでもなる。つまり、

- ・バスをトレースし外部バッファに蓄える
- ●そのデータを逆アセンブルなどの加工を施して表示する という手順で行うことができる。どの程度の命令数をトレースでき るかは外部バッファの容量による。

#### (5) 分岐トレーストラップ

プログラムをデバッグするときに有用なのは、サブルーチンなど、 命令の流れが不規則に変化する時点を認識することである。分岐の 履歴を調べれば、プログラムの大まかな流れを知ることができる。

この機能を実現するために、分岐トレーストラップを提供するMPUもある。これは、分岐が発生した時点でトラップを発生させる機能である。ただ、分岐でいちいちトラップを発生させていると、プログラムの動作が実時間で動作させた場合と異なるのが欠点である。

#### (6) シーケンシャルブレーク

シーケンシャルブレークとは、その名のとおり、あるトラップ条件

#### 〔図 B〕 バックグラウンドモニタ/フォアグラウンドモニタ



(b) フォアグラウンドモニタ

が成立した後に別のトラップ条件が成立するとき、初めてトラップさせる機能である。この機能は、トラップ発生時にICEの実行を止めるか否か、ICEのモニタプログラムで制御することで実現可能である。つまり、1回目のトラップが発生すると、そのことを記録しておき、そのままユーザープログラムに制御を戻す。そして、再びトラップが発生したときに、その旨をユーザーに表示すればよい。

ソフトウェア制御できるため、一見 MPU がもつまでもない機能と思えるが、プログラムの動作を実時間で動作させた場合と一致させるためには必要な機能である.

#### ● キャッシュ内蔵時のエミュレーション機能

キャッシュの内蔵は、MPUの性能に飛躍的な向上をもたらした.しかし、ICEにとっては嬉しいことではなかった。なぜなら、従来ICEが拠り所にしていたバスサイクルが発生しなくなったからである。たまに発生するバスサイクルもほとんどがキャッシュリフィルのためのバスサイクルで、バスサイクルとそれを発生させた命令を1対1に関連付けるのは難しい。このため、キャッシュ内蔵を当たり前とするRISCプロセッサ用のICEは、いつまで経っても実用的なものが登場しなかった。

当初 RISC は、ワークステーションなどハイエンドの分野でしか使用されていなかった。この分野のデバッグは、昔ながらのロジアナで波形観測を行う手法が普通であり、ICE の必要性を訴える人は少なかった。まさに職人芸の世界である。しかし、RISC が組み込み制御にも使われるようになると ICE の要望が高まってきた。組み込み分野では、従来 ICE を使用してデバッグを行っていたので、「ICE のない MPU なんて使えない」という意見が多数派だったのだ。

このような事情もあり、キャッシュ内蔵の MPUでは、エミュレーション機能を実現するために新たな機能を内蔵することが必要になった。たとえば、Motorolaが DragonBall や ColdFire シリーズに内蔵した BDM (Background Debug Mode)がそれである。BDM は CPUのマイクロコードでデバッグ命令を実装し、専用のデバッグ端子を外部にもたせて、専用のケーブルでデバッガと交信するしくみになっている。

#### (1) ハードウェアブレーク

従来,ICEがバスサイクルを観測することで実現していた,アドレストラップ,データトラップという機能をMPUに内蔵するように

なった. 従来も、アドレストラップ機能を内蔵し、ROM 領域でもブレークポイントを設定できることを売りにする MPU はあったが、ロードやストア時のデータの値を指定してトラップさせる機能をもつものはほとんどなかった

MPUは、ユーザーが使用するアドレストラップのほかに、ICE専用のアドレストラップやデータトラップ機能を提供するようになった.

トラップ発生時の ICE 専用空間への移行も、MPU がサポートする.

#### (2) トレース機能の実現

トレース機能も、従来は ICE が外付けで実現していた機能を MPU 内に取り込むことで理論上は可能である。しかし、それは MPU 内部 に巨大なトレースバッファを内蔵することを意味する。

ICE 以外では使用しない機能でチップの面積を増大させるのは、好ましいことではない。そこで、最小限のハードウェアでトレース機能を実現する方式がいろいろ考案された。その基本原理は、分岐が発生したことを検出する点にある。従来一部のエバチップで採用されてきた分岐トレーストラップ機能はとくに有用である。

トレーストラップ機能に加え、分岐時に分岐先の仮想アドレスを出力できれば、ほぼ完全に命令実行をトレースできる。しかし、この仮想アドレスの出力というのが難問である。従来のエバチップでは余分な端子数を追加することで実現していた機能である。本チップに、たとえば32本の仮想アドレス端子を追加することは不経済である。そこで考案されたのが、4本程度の専用端子を追加し、時分割で仮想アドレスを出力するという方式である。32ビットなら8回に分けて出力する。この方式の欠点は、分岐が連続して発生すると、仮想アドレスの出力が命令実行に追いつかなくなり、情報が失われることである。しかし、RISCの初期のICEでは、ないよりはまし、という割り切りで採用されていた。

実際、トレース機能の実装はいろいろな制限から難しいことが 多く、ハードウェアブレークだけでICEが作られることも多い。バッ クグラウンドモニタ機能を提供すれば、ハードウェアブレークしかで きなくても、そこそこ使えるICEが構成できる。

#### ● JTAG を利用したデバッガ

JTAGは、国際標準規格 IEEE1149.1 として普及している。JTAGは、機能の名称ではなく、この規格化作業を推進したグループの

#### 〔図 C〕JTAG ICE の構成



名称である.機能の名称は「バウンダリスキャン」である.IEEEの標準では、バウンダリスキャンアーキテクチャとそれにアクセスするためのシリアルポート(通称 JTAG ポート)が規格化されている.この JTAG ポートは、本来、ボードのテスト用に考案されたものであるが、そのインターフェースを MPU のデバッグ機能に利用することが考えられている.

従来のICEでは、専用のデバッグ端子をMPUに装備する手法が採られていたが、現在はJTAGを利用する方法が主流である。JTAGは、もともとチップの回路テスト用に開発されたバウンダリスキャンのテスト手法である。JTAGの回路と外部テスト端子を利用し、デバッグ回路を追加することによりシステムのデバッグを行う。

JTAGを利用したデバッグ機能の拡張は、各社独自の仕様により行われている。こうしたオンチップデバッグ機能には、NECのN-WIRE、MIPS Technologies 社の EJTAG (Enhanced JTAG)、Motorola 社の COP (Common On Chip Processor) などがある。本質はどれも似たようなものである。本来、N-WIRE というのは、ICEメーカーである HP が提唱した JTAG を使ったデバッグ機能であり、その意味では NEC 固有の規格ではない <sup>注</sup>.

ICE の短所は、ソフトウェアデバッガに比べて非常に高価な点である。従来は、100万円を超えることは珍しくなかったが、JTAGを利用したデバッグ機能は、MPU内にデバッグ機能を内蔵し、外部とのインターフェースを最小限の端子本数  $(5 \sim 15$  本程度) におさえることで安価  $(30 \sim 50$  万円) な ICE 構築をめざすものである。

JATGと同時に用いられるオンチップのデバッグ機能は、従来と大差ないハードウェアブレークとトレース補助機能である。それを、JATGという標準的なシリアルインターフェースでアクセスすることで、ICEのハードウェアの共通化を図ることができる。つまり、JTAGの先のデバッガ本体は、MPUの種類が変わっても同一のものを用いることができる(図 C).

JTAGのICEでは、従来のICEとは異なり、MPU自体がデバッグ機能を内蔵するので、エバチップは不要である。ボードテスト用のJTAG端子をデバッガに接続することでデバッグが可能になる。

#### • JTAG デバッガの実現例

JTAGデバッグ機能を有するMPUの一般的な構造を図りに示す。 このように、MPUのデバッグユニットはバックグラウンドモニタ (ハードウェアブレーク機能とモニタ機能)とトレース制御から構成 される。

MPUが提供するハードウェアブレーク機能は直感的に理解しやすいが、トレース機能が実現される方法は興味深い、ここでは、JTAG ICE (N-WIRE) におけるトレース機能とモニタ機能の実現方法を簡単に説明する

#### (1) トレースパケット

命令やデータのトレースは、トレースパケットと呼ばれる数種類の情報を、JTAGを通じて数ビットずつシリアル出力することで実現する。トレースパケットは MPU 内部で生成される。トレースパケットの例を図 E に示す(実際のものとは異なる)。これは、パケットの種類を判別する TRCODE とそれに付随する情報で構成される。これ

注: N-WIRE は東芝の MIPS RISC である R3900 に初めて搭載された。東芝と YHP (横河ヒューレットパッカード) が開発した規格で、N本の信号線から構成されるので、そう命名された。その後、HP が JTAG 仕様に変更しさらなる拡張を行って現在の形になった。このとき、ハードウェアブレーク部とトレース部 (N-Trace) が分離された。つまり、トレース機能のないものも N-WIRE と呼ぶ。NEC や ARM も採用しているが、ARM は N-Trace と呼んでいる。また、日立の SH-3/SH-4 に採用された H-UDI (Hitachi User Debug Interface) も同様の形式であるらしい。

らのトレースパケットは、アドレスの一致情報、分岐や例外の発生情報、その分岐先アドレスや分岐元アドレス、例外コードを示す、必然的に分岐に関する情報が多い、あとは、外付けのICEがトレースパケットを取り込んで、従来どおりのトレース表示を行う。

ICE は通常、低いクロックで動作している. 反面、MPUは非常に高速なクロックで動作する. トレース機能は高速な MPUの状態をパケットにして出力するものであるから、ICEがそれを取り出して処理するためには、速度差を緩衝するバッファが必要である. まともなトレース機能を実現するためには、このトレースバッファのために多くの容量を必要とし、これが MPU内にトレース機能を実装する足枷となることが多い. このため、トレースバッファを MPUの外部メモリとしてサポートする場合 (MIPSの EJTAG など) もある. この場合は MPUの動作クロックをあまり高速にできないのが欠点である.

#### (2) モニタ機能

デバッグ機能を有する MPU はモニタ空間を内蔵する. つまり、デバッグ機能を実現するプログラム(モニタプログラム)はモニタ空間で実行される. しかし、4Kバイトや8Kバイト程度のモニタプログラムのためのデバッグ専用メモリを内蔵するのは不経済である. そこで考案されたのが、一つのモニタ機能を1~8命令程度で実行するものとし、その命令分の実行領域のみを内蔵する方式である. この領域をモニタ命令レジスタと呼ぶ. このレジスタは1回に連続実行する命令の数だけ存在する(たとえば8本). そして、具体的には、次のような手順でモニタ命令レジスタの内容を実行する.

- アドレストラップやハードウェアブレー クなどでモニタ空間に移行する
- 2) 命令実行が自動的に停止する
- 3) JTAG を経由して、モニタ機能を実現する1~8命令程度の命令列を、モニタ命令レジスタに書き込む
- 4) JTAG経由で命令実行を許可する
- 5) モニタ命令レジスタの内容が実行され、実行が終わると命令実行 が停止する
- 6) モニタ命令レジスタの実行結果は一時的なレジスタに格納され、 その値を JTAG 経由で取り出し、実行結果などの表示を行う
- 7) 3)~6)の処理を繰り返す
- 8) モニタ空間から抜け出すための命令をモニタ命令レジスタに書き 込む
- 9) JTAG経由で命令実行を許可する
- 10) 制御はユーザープログラムに移る

#### 〔図 D〕 JTAG ICE の動作



#### 〔図 E〕トレースパケットの例



#### まとめ

MPUの提供するデバッグ機能とICEの実現方法の概要について 説明してきた。最近ではICEの提供が、MPUを販売する上での 必須事項になりつつある。これを実現するために、MPUにどのよう な機能が要求されるのかを知っておくことは、有用であろう。

なかもり・あきら フリーライタ

ここでは、シングルパイプラインを多重化したスーパースカラについて解説する。1命令1クロック処理があたりまえになってくると、プロセッサの性能はクロック数(と命令の機能)だけで決まってしまい、アーキテクチャ的には進化の余地はないように思える。そこで登場するのが、1クロックで複数の命令を同時に実行してしまおうというアプローチだ。その代表がスーパースカラという手法であり、現在の高性能 MPU の多くで採用されている。ここでは、スーパースカラの基本的な考え方をおさえておこう。

# 1 CPI から IPCへ

CPI(Clock cycles Per Instruction)とは、1命令を実行するのに必要なクロック数である。この値が小さいほど MPU は高性能であるといえる。CISC から RISC への進化によって、CPIが1という限界に達した(理想的な実行環境に限定されるが)。それ以上性能を上げるには、同じパイプラインステージ内で複数の命令を実行させればよいと考えるのが自然な発想である。これがスーパースカラである。そうなってくると、性能指標としてCPIの逆数である IPC(Instructions Per Clock cycle)を使用したほうがわかりやすい。つまり、1クロックに実行できる命令数である。2命令を並列に実行できれば IPC は2に近づくし、4命令を並列に実行できれば IPC は4に近づく(理論的には)。

IPC は値が大きいほど高性能を表す、IPC は **MIPS** (Million Instructions Per Second) 値とも密接な関係がある。MIPS 値とは、1 秒間に実行できる命令数 (100 万命令単位) である。その意味で、IPC に動作周波数 (MHz 単位) を掛け算した値が MIPS 値である。つまり、IPC が 1 の場合、100MHz 動作では 100MIPS、200MHz 動作なら 200MIPS である。

もっとも、最近の MPU の MIPS 値は **Dhrystone MIPS** を採用しているので、公称性能は本来の意味の MIPS 値とは異なる. Dhrystone MIPS とは、有名なミニコン(死語)である VAX-11/780 の性能を 1MIPS とし、Dhrystone ベンチマークを実行したときの性能がその何倍の値になるかを示したものである. Dhrystone MIPS を用いれば、シングルパイプラインでも IPC が 1 を超えているように見えるので多用される.

しかし、スーパースカラ構造になると事情が異なる場合もある。 Dhrystone MIPS を用いると性能がそれほど高く見えないからだ。その代わり、IPC と同時実行できる命令の数が等しいと仮定して、たとえば、2命令同時実行可能なパイプラインを200MHzで動作させると400MIPS(200MHz × 2命令という計

算)などという理想値を示す場合もある。現実には、同時実行できる命令数を増やしていっても、IPCは1.6あたりに収束することが経験的にわかっているので、2命令同時実行でもIPCが2になることはまずない。

ただし、Dhrystone MIPS を真の MIPS 値と (意図的に) 混同して IPC を計算すれば、2命令同時実行で 2.2 程度になることもある。この場合でも、4命令同時実行では 4.0 どころか 3.0 を越えることはまずない。その場合は、動作周波数  $\times$  4 で MIPS 値が決められたりする。つまり、200MHz で動作し、4命令同時実行なら 800MIPS といった具合である。まあ、公称 MIPS 値をそのまま信じる人はいないと思うが、このような数字のマジックに惑わされないようにしなければならない。

しかし、感覚的には IPC が 2.2 などといわれると非常に高性能と思ってしまう。現在の GHz 単位で動作する x86 系の MPU の IPC は  $2\sim3$  などといわれているが、Dhrystone MIPS による IPC では 0.6 程度である (つまり実質的な性能は、動作周波数の割には高くない)。

一般にパイプラインのステージ数を増やすと、IPC は低下する.動作周波数を向上するためにパイプラインのステージ数を増やすことはよくある手法だが、パイプラインのステージ数を増やしても IPC を 0.6程度に保ち続けているインテルや AMD は賞賛に値する. NetNews(fj.comp.arch)に、PentiumIII-750MHzで Dhrystone ベンチマークを行った場合の性能の実測値が報告されていた(メッセージ ID は失念した). その値から計算すると、真の IPC は 1.01、Dhrystone MIPS による IPC が 1.18であった。予想の 2 倍の性能になっているが、これは Dhrystoneという、最高性能を発揮しやすいプログラムの性質によるものだろう。実際のアプリケーションではこうはいくまい。

ちなみに、別の資料による Pentium (P5) 66MHz の Dhrystone による IPC は 1.5 なので、 Pentium III になると IPC は低下している. パイプラインのステージ数が増加しているので、当然といえば当然か.

74 Interface Oct. 2003

#### [図1] スーパースカラ(2ウェイ)の概念図

| 1 2 3 4 5 6 7 8 |  | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|-----------------|--|---|---|---|---|---|---|---|---|
|-----------------|--|---|---|---|---|---|---|---|---|

| 命令1 | IF | RF | EX | DC | WB |
|-----|----|----|----|----|----|
| 命令2 | IF | RF | EX | DC | WB |

| 命令3 | ΙF | RF | EX | DC | WB |
|-----|----|----|----|----|----|
| 命令4 | ΙF | RF | EX | DC | WB |

| 命令5 | IF | RF | EX | DC | WB |
|-----|----|----|----|----|----|
| 命令6 | IF | RF | EX | DC | WB |

とにかく、シングルパイプラインの目標が CPI を1 に近づけることであったように、スーパースカラの目標は IPC を同時実行できる命令数に近づけることである。まあ、x86 は独自の道を歩んでいるようにも思えるが。

# 2

# 複数の命令を並列実行する スーパースカラの概念

複数の命令を並列実行する機構をスーパースカラ(superscalar)と呼ぶ。スーパースカラでは並列に実行できる命令数をウェイと呼ぶ。イシュー(issue:発行)と呼ぶ場合もある。厳密には命令デコーダから複数存在する命令実行パイプラインに同時に送り込む(発行)ことのできる命令数がイシューであり、命令実行パイプラインの本数がウェイである。しかし、現在ではそれほど厳密には区別されていない。どちらかといえば、ウェイという表現のほうがよく使われる。

一般に、2ウェイスーパースカラといえば2命令を並列実行できるパイプライン構造のことである。しかし、アウトオブオーダ実行が当然のようになっている現在の技術では、複数存在する演算器に対して2命令を同時発行できるパイプライン構造(2イシュー)のイメージのほうが強い。

いずれにしろ、スーパースカラの概念は**図1**のようなパイプラインの図で表されることが多い。つまり、命令フェッチ、命令デコード、実行、メモリアクセス、ライトバックを2命令並行に処理する、というイメージである。実際の動作とはあまり一致していないが、直感的ではある。

連続する命令は互いに独立ではなく、相互に関係がある場合がある。このため、単純に命令の並列実行はできない。因果律が逆転するからだ。スーパースカラの最大の特徴は、MPUが複数の命令を並列に実行するからといって、プログラムで特別な考慮をする必要がない点である。従来からの命令セットを変更する必要もない。MPU自身が命令間の依存性を検出し、並列に実行可能な命令を自動的に判定し、演算器に対して発行する。そして各演算器は命令を並列に実行する。

もっとも、命令間に依存関係があると、処理にオーバヘッド が生じ、実行効率が低下するので、スーパースカラの真の性能

# Column

# スーパースカラという名前の由来

ここでスーパースカラの名前の由来に触れておこう。スカラから連想されるのは、ベクトル量に対するスカラ量である。つまり、科学計算でおなじみのベクトルや行列演算に特化した並列処理ではなく、スカラ量に対する並列処理という意味でスーパースカラと呼ぶという説が有力である。この意味で、通常のシングルパイプラインをスカラパイプラインと呼ぶこともある

また、スーパースケーラという呼び方もある。これは、1 クロックで1命令を実行するという直感的な基準(スケーラ) を超えるという意味からきているらしい。この説はあまり聞 いたことはないが、技術解説で有名な某誌ではそう説明され ている

とどのつまり、スーパースカラの語源ははっきりしない。 ただ、最近の論文ではスーパースカラの反意語としてユニスカラ(uniscalar)が使用されるが、これなどは「スカラ=パイプラインの本数」という概念からであろう。

スカラかスケーラかというのは、個人的には単なる発音の問題だと思う。英語による発音はスーパースケーラに近い(少なくともあの Hennessy 教授はそう発音していた)のだが、最近ではスーパースカラと表記されるほうが多いように思う。実際にスーパースカラと発音する外国人も多くなった。

を発揮するには、プログラム側での考慮(コンパイラによる命令の並び替え)が必要である。このため、新しいMPUが発表になるとき、従来のオブジェクトコードそのものではそこそこしか速くならないが、新しいMPU用に開発されたコンパイラで再コンパイルすると性能が劇的に向上する、ということがよくいわれる。

# 3

# スーパースカラの実現

一般に、命令はデコーダでの発行、演算器での実行、実行の 完了の過程を経て処理される。命令の発行はプログラムに書かれた順序で行うこともできるし、矛盾を生じない限りは、プロ グラムの順序を無視して行うこともできる。また、命令の実行 は基本的に1サイクルなので、通常は発行された順序で完了す る。ただし、実行クロック数の異なる命令を同時に発行すると、 完了する順序が入れ替わることもある。当然、プログラムの 順序で完了するとは限らない。処理がプログラムの順序どおり であることをインオーダ、プログラムの順序と異なることをア ウトオブオーダと呼ぶ

スーパースカラの方式は、プログラムの発行、完了が、それ ぞれ、インオーダかアウトオブオーダであるかによって4種類

#### 〔図 2〕 インオーダ発行(2 ウェイ)



#### (図3) アウトオブオーダ発行(2ウェイ)



に分類できる。以下は簡単のために、2ウェイのスーパースカラを想定して説明する。

#### 命令デコード

命令デコードは、インオーダ/アウトオブオーダでそれほど大きな違いはない。命令キャッシュから2命令(たいていの場合ウェイの数と同じ数)をデコードし、命令キューに入れて終了である。デコーダと演算器の中間に命令キューをもつ方式では、デコードと発行を独立に行えるので、(命令キューに空きがある限り)1サイクルごとに2命令をデコードできるので効率がよい。また、逆に考えると、命令キャッシュの参照が少々もたついても、その時間的なロスを命令キューで吸収して見えなくすることが可能である。事実、MIPSのRuby(20Kc)はWay予測を行って命令キャッシュを参照しているが、予測失敗時のペナルティーは命令キューで吸収できると説明している。

命令キューの役割は、デコードと命令実行開始までの待ち時間を最小にする役割もあるが、とくにスーパースカラにおいては命令間のオペランドの依存関係を調べることである。たとえば、片方の(先行する)命令の実行結果を、もう片方の(後続する)命令がソースオペランドとして使用する場合に依存関係が

あるという。簡単にいうと、レジスタ間のハザードである。もし、2命令間に依存関係がなければ、同時に実行可能なので、演算器に2命令(ウェイの数)を発行する。命令の追い越しを許さない場合(つまりインオーダ)は、デコードしている2命令間でのみ依存性を調べればよいので、いちいち命令をキューに入れなくてもデコーダのみの検査でこと足りる。このため、インオーダなスーパースカラ構造では、命令キューをもたないものも多い。ただし、依存関係がある場合はデコーダで(依存関係が解消するのを)待ち合わせることになるので、各サイクルで、常に2命令をデコードすることはできない。このため、少し効率が悪い。

なお、このような役割をする命令キューは特別にリザベーションステーション (Reservation Station)、または集中命令ウインドウ (Central Instruction Window) などと呼ばれる.

また、命令の依存関係は命令キューで解消されているので、いったん演算器で実行が開始されるとレジスタ間のハザードによるストールは発生しない。命令ごとに定められた実行クロック数(レイテンシ)を経て実行が完了する。ただし、データキャッシュアクセスによるストールは発生する可能性がある。多くの場合、データキャッシュにアクセスするためのロード/ストアユニットは実行ユニットと分離されているので、アウトオブオーダの場合は他の命令実行に影響を与えない。インオーダの場合は後続命令が先行するロード/ストア命令を追い越せないので、データキャッシュにアクセス中はパイプラインがストールしてしまう。

ところで、本来 RISC は複雑な処理を行う命令を扱わないはずだったが、他社との差別化を進めるうちに複雑な命令も扱うようになってきた。これは、RISC の CISC 化に通じる。複雑な命令に関しては、x86 プロセッサではマイクロコードで処理するが、たいていの RISC はハードワイヤードロジック (結線論理)で処理する。しかし、これはハードウェアの複雑化を招く、そこで考案されたのが、複雑な命令は複数の単純な命令の組に分割して実行する方法である。これは、x86 プロセッサが x86 命令を  $\mu$  OP に変換して実行するのと同じ考え方である。たとえば、2001 年に発表された IBM の Power4 は、複雑な命令を 2 命令 (Cracking) または 3 命令以上 (Millicode) に分割して命令キューに格納する。そして、分割された命令間で使用できる一時レジスタを 4本、プロセッサアーキテクチャのレジスタとは別に備えている。このような傾向は今後増えていくかもしれない。

#### ● インオーダ発行

この場合は、命令キューの先頭の(または現在デコードしている)2命令(ウェイの数)のみの依存性を調べる。命令間に依存性がない限り、2命令(ウェイの数)を同時に発行する。依存性がある場合は1命令のみを発行する。残った命令はその次の命令と組になり、再び依存関係が調べられる( $\mathbf{Z}$ 2).

● アウトオブオーダ発行

この場合は命令キュー全体(あるいは一定の命令数の間)で依

存性が調べられる。オペランドの依存性がない(というか、オペランドをすぐに利用できる)命令のうち、先頭から2命令(ウェイの数)を同時に発行する。発行される順序はプログラムの順序と入れ替わる場合がある。命令キュー内のすべての命令に何らかの依存関係がある場合は、先頭の1命令のみが発行される(図3)。

オペランドを利用可能かどうかは、リザベーションステーション内の各命令のソースオペランドとデスティネーションオペランドのレジスタ番号を比較することで検出できる。オペランド間に依存性がある場合でも、デスティネーションオペランドが確定していれば(そのデスティネーションオペランドを有する命令の実行が終了していれば)、ソースオペランドは利用可能と判断する(図 4).

#### アウトオブオーダ完了

RISC は基本的には命令を1クロックで処理できるが、現実には実行に数クロックかかる命令も存在する。とくに浮動小数点命令は実行に最低でも3クロック程度かかるのが実情である。つまり、MPU内には複数の演算器が存在するが、それらが処理する命令のレイテンシは一般には異なる。ということは、命令がインオーダに発行されようがアウトオブオーダに発行されようが、実行がプログラムの順序で完了する保証はどこにもない、すなわち、スーパースカラではアウトオブオーダ完了が自然な姿である(図5)。また、実行が終わった演算器には命令キューから次々と命令を発行すればいいので効率的でもある。

しかし、実行の完了と同時に結果をレジスタファイルに書き 戻していたら不都合が生じる場合がある。

まず、第1は出力依存関係である。同時に実行されている命令のデスティネーションレジスタ(結果の格納先)が等しい場合、そこにはプログラム的に後にある命令の実行結果が書き込まれなければならない。ところが、後続命令の処理が先に完了し、先行命令の処理が後から完了する場合、正しい結果(後続命令の結果)が破壊されてしまう。これがWAW(Write After Write)ハザードである。シングルパイプラインではWAWハザードは起こり得ないが、スーパースカラでは当たり前に発生する。もっとも、これはあとで説明するレジスタリネーミングで回避することができる。

しかし、インオーダ発行のスーパースカラでは(回路規模が増大するのを嫌って)レジスタリネーミングを行わないことも多く、この場合はデコード時に発行を待ち合わせたり、後続命令のライトをストールさせるなど、何らかの対策が必要である.

第2は(こちらのほうがもっと深刻だが), 例外の正確性 (precise)の問題である。例外はプログラムの順序で処理されなければならない。たとえば、先行する命令も後続する命令も例外を発生する場合、後続命令の例外が先に検出されても、先行命令の例外発生を優先させるようにしなければプログラム処理に矛盾が生じる。

しかし、例外をプログラムの順序で発生させるという制約は

#### 〔図4〕オペランドの依存性チェック



(図5) アウトオブオーダ完了(2ウェイ)



演算器1で実行している命令が、演算器2で実行している命令より、プログラム順序で先にあるとき、演算器2の命令で例外が発生すると不都合が生じる

シングルパイプラインでも同様であり、通常なんらかの対策が 施されている。問題は例外(割り込みでも同様)発生後に、例外 の発生直後の命令からプログラムの処理を再開させる場合(ブ レークポイント命令、システムコール命令、トラップ命令、割 り込みなどの処理)に生じる。つまり、レジスタへのライトが プログラムの順番を無視して行われていたら、例外からの再開 をどの命令から開始してよいのか判断できない。

たとえば、op1、op2を適当な演算として、

R1 ← R2 op1 R3 ……命令 1 R3 ← R4 op2 R5 ……命令 2 例外/割り込み ……命令 3

という命令処理を考え、op2の実行がop1よりも早く終了すると仮定する。この2命令の処理中に後続命令で検知される例外とか割り込みが発生すると、R1は更新されていないのにR3が更新されている状況が発生する。この場合、プログラムの実行再開は、まだ実行されていない命令1から行うことになる。しか

し、命令1のソースオペランドであるR3は命令2で更新される前の値が必要なので矛盾が生じる。例外の正確性を維持するのは、シングルパイプラインではそれほど複雑な制御でないが、(アウトオブオーダ完了の)スーパースカラではかなり複雑である。

例外が発生すると、それは致命的とみなし、プログラムの実行を中断する(再開しない)、割り込みの受け付けは再開に都合のいい時点の処理が終了するまで待ち合わせる、という制御を行えば、アウトオブオーダ完了を実現できる。ただし、システムコールが行えないとか、割り込み応答性が悪くなるという問題が生じ、あまり現実的ではない。

#### インオーダ完了

インオーダ完了とは、各演算器の完了がアウトオブオーダに 完了するのは避けられないので、その結果を、いったん別の場 所に保存しておき、レジスタにライトする順番をプログラムの 順番に一致させる方式である。レジスタへのライトが終了する ときに初めて命令は真の完了となる。この場合、演算器での実 行完了と、命令の真の完了を区別する必要がある。一般には、 前者をコンプリート (complete)、後者をリタイアメント (retirement)と呼ぶ。リタイアメントはコミット (commit)と 呼ばれることもある。なお、本特集ではリタイアメントという 表現は文字数が多いので、その動詞形のリタイアという表現を 使用する

インオーダ完了を実現するために、リオーダバッファ (Reorder Buffer:並び替えバッファ、ROBと省略)という機構が導入される。リオーダバッファとは、プログラムの実行順序を記憶しておくテーブルで、命令の発行時に適当な情報が設定される。その各エントリは、命令がコンプリートしたか否かの情報、命令の実行結果を一時退避するバッファ(このバッファは ROB にない場合もある)などからなる。ROB はリザベーションステーションで共用することも可能である。

ROB内にある命令の先頭から、連続してコンプリートしている命令がリタイアできる(図6). 1 サイクルにリタイアできる最大命令数は MPU ごとに異なるが、多くの場合、スーパースカラのウェイ数に等しい。たとえば、命令1、命令2、命令3、命令4がプログラムの順序であり、これらの命令はすべてアウトオブオーダ(である必要もないが)に発行されているものとす

#### 〔図6〕インオーダ完了(2ウェイ)



る. このとき, ROBの内容(先頭4エントリ)が,

命令1 未コンプリート

命令2 コンプリート

命令3 コンプリート

命令4 ...

となっている場合、このサイクルでは1命令もリタイアできない。 命令1が命令2以降のリタイアを阻害するからである。一方、

命令1 コンプリート

命令2 未コンプリート

命令3 コンプリート

命令4 ...

となっている場合は、このサイクルでは命令1のみがリタイアできる。命令3のリタイアは命令2がコンプリートしていないので阻害されている。また、

命令1 コンプリート

命令2 コンプリート

命令3 コンプリート

命令4 未コンプリート

となっている場合は、命令 1、命令 2、命令 3 がリタイア対象である。ただし、実際にリタイアできる命令の最大数は MPU ごとに異なる。もし、MPU が 1 サイクルで 2 命令がリタイア可能なら、命令 1、命令 2 のみがリタイアし、命令 3 は次のサイクルでのリタイアに回される。もし 1 度に 4 命令がリタイア可能なら、命令 1、命令 2、命令 3 のすべてがリタイアできる。

例外の正確性の問題があるので、特殊な場合を除き、アウトオブオーダ完了というしくみは採用されない。したがって、スーパースカラの種類は、実質的には、インオーダ(インオーダ発行、インオーダ完了)とアウトオブオーダ(アウトオブオーダ発行、インオーダ完了)の2種類しかない。図7に典型的なスーパースカラ構成のMPUのブロック図を示す。図7(a)ではリザベーションステーションは一つのみであるが、図7(b)のように(いくつかの)演算器ごとにリザベーションステーションを設ける構成もある。

また、インオーダなスーパースカラは2ウェイのものが主流である。インオーダで $3\sim4$ ウェイというのは記憶にない。これは、多ウェイのスーパースカラ構造を採用する場合でも、整数 ALU は2個程度しか用意されていないためではないだろうか。インオーダなスーパースカラではウェイの数だけ ALUがないとパイプライン効率が悪い。それなら、いっそアウトオブオーダにしたほうが同時発行の効率が上がる。

#### 制限付きアウトオブオーダ

複数の演算器それぞれにリザベーションステーション(命令キュー)を有するスーパースカラ[図7(b)のような構成]において、各命令キューへの命令格納は独立に行われるのが普通である。しかし、すべての命令キューに空きができるまで命令の格納を待ち合わせてから、一括して命令供給を行う方式もある。命令のリタイアもすべての演算器での実行が終了してから一括

#### 〔図7〕典型的なスーバースカラ構成



(a) 単一のリザベーションステーションを有する場合



(b) 複数のリザベーションステーションを有する場合

して行う。この方式は、演算器の数が少ない場合はインオーダ 方式と大差ないので、効率的ではないが、命令キューの待ち合 わせ論理を簡略化できる利点がある。

IBM の Power4 では、ハードウェアを簡略化して動作周波数を向上させるため、4命令(+1分岐命令)を一括して、そのグループ単位で実行する方式を採用している。1 グループ内の 4命令はアウトオブオーダに実行できる。



# スーパースカラの命令発行を 効率的に行うための 「レジスタリネーミング」

レジスタリネーミング (Register Renaming)とは、その名称のとおりレジスタ名の付け替えである。その役割には二つある。 基本的には、スーパースカラの命令発行を効率的に行うための技術である。

第1は、アーキテクチャ的に定義されたレジスタ数を増やすことである。たとえば、x86の系MPUの汎用レジスタは8本しかないので、ちょっとしたプログラムでもレジスタの使い回しが多くなり、レジスタの依存関係が発生しやすい。これは命令発行の制約となる。レジスタの本数をアーキテクチャが規定するより大きくもち、レジスタの名前を付け替えることで、内部的にプログラムの依存関係を低減できる。

第2は、これも依存関係の解消であるが、WAR(Write After Read)ハザード、WAW(Write After Write)ハザードという偽の依存関係を解消することである。偽の依存関係とは、本来はハザードになるが、レジスタリネーミングによって依存性を解消でき、結果として命令発行の妨げとならないように変更可能な依存関係である。なお、WARとは先行する命令のソースオペランドを後続の命令で変更する可能性のある依存関係、

WAWとは後続命令が変更したデスティネーションレジスタを 先行する命令が変更する可能性のある依存関係である。これら は同一のレジスタが同時に変更される場合に生じるので、その 同一のレジスタを別々のレジスタに割り当ててやれば(偽の)依 存関係がなくなる。

また、真の依存関係とは RAW (Read After Write) ハザード のことであり、後続命令が先行する命令の実行結果をソースオペランドとして利用する場合である。これはレジスタリネーミングによっても解消できない。たとえば、次のような命令列を考える。op は単純な加算 (+) よりもレイテンシ (実行時間) の大きい演算とする。

 $R_3 \leftarrow R_3$  op  $R_5$  .....命令 1  $R_4 \leftarrow R_3 + 1$  .....命令 2  $R_3 \leftarrow R_5 + 1$  .....命令 3

R7 ← R3 op R4 ......命令 4

この4命令は(4ウェイスーパースカラで) 同時発行しようとしても、命令2と命令3が WAR ハザードに、命令1と命令3が WAW ハザードになっているため、同時発行できない。そこで、次のようにデスティネーションレジスタに対してレジスタリネーミングを行う。基本的には、デスティネーションレジスタを別個のレジスタに割り当てればよい。ソースオペランドは、デスティネーションレジスタの割り当てにしたがって適宜変更される。

P1 ← R3 op R5 .....命令 1 P2 ← P1 + 1 .....命令 2 P3 ← R5 + 1 .....命令 3 P4 ← P3 op P2 .....命令 4

このとき、WARハザードとWAWハザードは解消される。しかし、命令1と命令2、命令3と命令4、命令2と命令4は依然としてRAWハザードの関係にある。この場合、依存性のない

命令1と命令3がまずアウトオブオーダ発行できる。命令2は 命令1がコンプリートするときに、命令4は命令2と命令3が コンプリートするときに、ソースオペランドが確定するので、 晴れて発行できるようになる.

### 分岐予測と投機実行

#### 分岐予測

典型的なプログラムでは全体のコードの10%が無条件分岐 命令, 10~20%が条件分岐命令であるといわれている。無条 件分岐は、フェッチするアドレスを分岐先に切り替えるだけな ので、それほど問題はない、一方、条件分岐は命令がパイプラ インの実行ステージでコンプリートするまで、分岐するか否か が不明なので、やっかいである. 分岐命令のコンプリートを 待っていたのでは、その間に、多くの命令をフェッチし発行す る機会を失うことになる.

そこで考案されたのが、分岐するか否かを推測するアルゴリ ズムである。もし、推測が成功すれば、命令はほんの少しの遅 延(あるいは遅延なし)で続行できる。推測が失敗すれば部分的 にコンプリートしている命令を無効化し、正しいアドレスから フェッチ、デコード、発行を再開しなければならない。これは、 最近のx86系MPUのようにパイプラインのステージ数が多い MPU ではとくに、かなりの性能低下をまねく、しかし、その ようなペナルティを考慮しても, 分岐予測は必須であり, これ を行わないと性能は悲惨なことになる.

分岐予測には二つの基本的な手法がある。 静的な分岐予測と 動的な分岐予測である。静的な分岐予測は、コンパイラが分岐 命令の命令コードに埋め込んだ「ヒント」情報で分岐が発生する か否かを予測する. ただし, このような分岐命令を命令セット として有する MPU は少ない。あるいは後方 (backward) への 分岐(オフセットが負)はループの終端とみなせるので、これを 分岐すると予測するのも静的な分岐予測といえる.

静的な分岐予測と動的な分岐予測を比較すると、一般には、 動的な分岐予測のほうが効果的といわれている。動的な分岐予 測とは、分岐命令の時間的な挙動を評価する。一度分岐した分 岐命令は次も分岐する傾向があると予測する. これに使われる のは、分岐履歴テーブル (Branch History Table: BHT)と分 岐ターゲットバッファ (Branch Target Buffer: BTB) である. BHT も BTB も分岐命令のアドレスをインデクスとするキャッ シュである. (キャッシュにヒットする場合) BHT の出力は分 岐命令が分岐するか否かの予測情報であり、BTBの出力は予 測した分岐先のアドレスである.

#### ● 投機実行 -- 分岐予測の効果を増大させる

また、分岐予測の効果を増大させるため投機実行(Speculative Execution)を行う MPU もある、投機実行とは、分岐予測の成 功/失敗がわかる以前でも命令を実行してしまう機能である。し かし、MPU は投機的に実行されている分岐命令の分岐/不分岐 が確定するまで(つまり分岐命令のコンプリートまで)リタイア できない。もし分岐予測が失敗すれば、分岐命令以降に実行さ れた命令を放棄して、分岐元から命令の処理をやり直さなけれ ばならないからである. 投機実行中の命令の結果は、通常リ オーダバッファに格納される。分岐予測が失敗したらリオーダ バッファの該当エントリを無効化すればよい.

ところで, 投機実行に限らず, 一般的には演算結果はリオー ダバッファに格納されてリタイアを待つが、MIPS の R10000 な どは(レジスタにネーム後の)物理レジスタを直接更新する。こ れは、アーキテクチャ上の論理レジスタにも実体があり、物理 レジスタは値を一時的な演算結果を保持するものとして区別し ているためである。この場合、リオーダバッファの中には演算 結果の格納領域は不要である. R10000 では命令のリタイア時 に、その命令に割りつけられている物理レジスタの値が論理レ ジスタに転送される.

歴史的にはR10000方式のほうが占く、かつ一般的のように 思える. x86 系の MPU のように物理レジスタを実質的なレジ スタの本数を増加させる目的でレジスタリネームを使用すると, それを一時的な結果の保存場所に利用することはできない。リ オーダバッファ内に一時的な結果をもつのは姑息な方法のよう にも思える。x86系MPUのシェアは膨大なので、そちらの方 式が"大勢"といわれれば確かにそうではあるが。

投機実行を行う場合, 分岐条件未確定中のロード/ストアが どのように処理されるかは興味深い、たとえば、ストアを行っ た後で分岐予測の失敗が判明したとき、キャッシュやメモリに 不正なデータが書かれることはないのか不安になる。ロード/ ストアがキャッシュ領域に対して行われるものならば、ROB と 同等な一時バッファを設けて、ロード/ストア命令のリタイア まで保持すればよい. Pentium ではこのバッファを MOB (Memory Order Buffer)と呼んでいる.

ロード/ストアが非キャッシュ領域に対して行われるときは 事情が異なる. 最近の MPU は専用の I/O 命令をもっていない ため、メモリ空間にI/Oアドレスを割り付けて、そこを非 キャッシュで参照することで I/O 機能を実現する (メモリマッ プトI/O). I/O装置にはリードを行うと内部状態が変化するも のもあり、実際には実行されない(分岐予測が失敗する場合の) 投機実行中のロードを行うと周辺が誤動作してしまう. つまり, このような場合、投機実行中の非キャッシュ領域へのロード/ ストアは実行してはいけない。また、同様に、非キャッシュ領 域へのロード/ストアの順序は変更してはいけない.

最近のMPUは、ノンブロッキングキャッシュ機能を実装し、 ロード/ストアもアウトオブオーダに行われるが、これはキャッ シュ領域に対する場合のみである.

なかもり・あきら

パイプラインやスーパースカラの基本を解説したころで、実際のプロセッサの実装方式を解説する。ここではインオーダ 方式の代表例として日立の SH-4 とインテルの P5 を、アウトオブオーダ方式の代表例としてインテルの P6、MIPS の R10000、モトローラの PowerPC750 を紹介する。また Pentium4 や Pentium-M、AMD の Athlon/Hammer についても言 及する。

### はじめに

図1に、レジスタマップ、アウトオブオーダ命令発行、リタイアとリザベーションステーションの関係図(概念図)を示す。 これらが、典型的なMPUにおいてどのように実現されているか、その実装方式を見ていこう。

各 MPU とも、パイプラインに関しては実行ステージ以降の 処理はやや枯れた感じがあり、新規性はない。しかし、命令 フェッチ、分岐予測、命令デコードの部分は、各社、いろいろ な工夫が見られる。そこを中心に比較するのも興味深い。



● インオーダ/2 ウェイスーパースカラ構造 SH-4 は、整数ユニット、浮動小数点ユニット、ロード/ストアユニット、分岐ユニットという、四つの基本演算ユニットを備える。この四つのユニットに対し、2命令を同時発行するインオーダな2ウェイスーパースカラ構造である。なお、ロード/ストアユニットは単純な整数ユニットの役割をもち、簡単な MOV やNOP などの命令を 0 レイテンシで実行できる。

このほかに、複雑な命令を実行するための ユニット(というか上述のユニットを組み合わ

#### 〔表 1〕SH-4 の命令の並列実行性

|          |    | 第2命令 |    |    |    |    |    |  |  |  |  |
|----------|----|------|----|----|----|----|----|--|--|--|--|
|          |    | MT   | EX | BR | LS | FE | CO |  |  |  |  |
|          | MT | 0    | 0  | 0  | 0  | 0  | ×  |  |  |  |  |
|          | EX | 0    | ×  | 0  | 0  | 0  | ×  |  |  |  |  |
| 第1<br>命令 | BR | 0    | 0  | ×  | 0  | 0  | ×  |  |  |  |  |
| 命令       | LS | 0    | 0  | 0  | ×  | 0  | ×  |  |  |  |  |
|          | FE | 0    | 0  | 0  | 0  | ×  | ×  |  |  |  |  |
|          | CO | ×    | ×  | ×  | ×  | ×  | ×  |  |  |  |  |

せて利用?)があるようである。ユーザーズマニュアルによると、SH-4の命令は利用する内部機能ブロックにより、次の6グループに分類できる(略語の意味は筆者の推測によるもの)。

- 1) MT (Manipulate T) グループ
- 2) EX(Integer Execution) グループ
- 3) BR (Branch) グループ
- 4) LS(Load/Store) グループ
- 5) FE (Floating Point Execution) グループ
- 6) CO(Complex) グループ

これらのグループは上述の演算ユニットに対応しており、同時に実行できる組み合わせは**表1**のようになっている。CPUコア内の詳細な内部ブロック図は公開されていない。**図2**は筆者の想像図である。なお、各パイプラインは通常、次の5ステージで処理される。

#### 〔図1〕スーパースカラ実現の概念図



#### 「図 2〕 SH-4 の CPU コアの構造 (筆者想像による) -



#### 〔図 4〕SH-4 の並列動作の組み合わせ ·

| SHAD RO, R1 | I | D | EX | NA | S  |   |
|-------------|---|---|----|----|----|---|
| ADD R2, R3  | I |   | D  | EX | NΑ | S |
| NEXT        |   | Ι | D  | EX | NΑ | S |

EXグループのSHADと同じEX グループのADDは並列実行できない、SHADのみ発行され、 ADDは次の命令と組み合わされて並列実行可能か否かを調べる

(a) 直列実行:並列実行不可能

| ADD R   |        |   |   |    |    |   |
|---------|--------|---|---|----|----|---|
| MOV.L @ | R4, R5 | I | D | EX | МА | S |

EXグループのADDとLSグループのMOVは並列実行できる

EXグループのADDとLSグループのMOVは並列実行可能. しか

し、ADDの結果をアドレスとするので依存性があり、この場合

は直列実行になる、MOVは次

の命令と組み合わされて並列実

行可能か否かを調べる

(b) 並列実行可能:並列実行可能かつ依存性なし

| ADD R2, R1    | I | D | EX | NA | S  |   |
|---------------|---|---|----|----|----|---|
| MOV.L @R1, R2 | I |   | D  | EX | NΑ | S |
| NEXT          |   | I | D  | EX | NΑ | S |

(c) 並列実行可能:並列実行可能 かつ依存性あり

MOV R0, R1 I D EX NA S ADD R2, R1 I D EX NA S

依存関係がある場合でも、0サイクルレイテンシ命令の後続命令は並列実行できる。R1がフォワーディングされる

(d) 0サイクルレイテンシ命令

MOV.Lは2サイクルレイテンシであり、その結果を後続命令で参照するには、 MAステージまでストールする

(e) 2サイクルレイテンシ命令

MOV.L @R1, R2 I D EX MA S SHAD R2, R3 I D d EX NA S

(f) シフト命令のシフト量

ロード命令の結果をシ フト量として使用する 場合は、Sステージま でストールする. デー にはフォワーディ ングされる経路がない?

#### 〔図 3〕SH-4のパイプラインの命令処理パターン



I :命令フェッチ D :命令デコード 発行 レジスタリード

PC演算(一般命令)

EX : 演算, アドレス計算 (ロード/ストア) SX : 演算, アドレス計算 (ロード/ストア)

MA:メモリデータアクセス S:ライトバック

NA: 非メモリデータアクセス F0/F1/F2/F3: 計算 FS: 計算, ライトバック

- 1) 命令フェッチ(I)
- 2) デコード・レジスタリード(D)
- 3) 実行(EX, SX, Fo, F1, F2, F3)
- 4) データアクセス(MA, NA)
- 5) ライトバック(S, FS)

これ自体は SH-3 のパイプラインと同じである (浮動小数点演算が追加されているが). **図3** に基本的なパイプラインの命令処理パターンを示す.

ユーザーズマニュアルによると、2命令を同時発行できる場合は、0レイテンシと1レイテンシの命令の組み合わせだけのようである。片方が0レイテンシならば無条件に、1レイテンシ同士なら、命令のグループが異なり、かつレジスタの依存性がない場合に限り同時発行できる。

2命令間が同時発行できないグループにあるとき、実行に必要なハードウェア資源が競合するとき、レジスタの依存関係があるときは同時発行できない。この場合、第2命令は、その後続命令とともに再度組み合わされて、同時発行ができるか否かを決定する。この関係を**図4**に示す。

マニュアルを読み間違えていなければ、マルチステップ命令(この種の命令はハードウェア資源を独り占めする)が出現する場合や、レジスタの依存関係がある場合は、SH-4のパイプライン処理の効率はシングルパイプラインと大差ないように思える。少しの並列実行を行うために、ハードウェア資源をむだ使いしているように感じるのは筆者だけであろうか。せめて、整数演算器がもう一つあれば、性能はもう少し向上するであろう。



#### 〔図5〕R10000のブロック図



特徴的な SH-4 のパイプライン動作例ここで、SH-4 のパイプラインで特徴的な二つの例を示す。

### ▶0 サイクルレイテンシ命令はレジスタの依存関係があっても ストールしない

これはソースフォワード機能と呼ばれる(通常のフォワードとは異なる)。おそらく、デコード時に他方の命令のソースオペランドを読み替えるのであろう。たとえば、

MOV R1, R0 // R0 <- R1

ADD R0, R2 // R2 <- R0+R2

という命令列がある場合、ADDのソースであるRoはR1に変換されて、依存性をなくし、この2命令を1サイクルで実行する.

### ▶条件分岐命令でオフセットが 0 の場合は分岐成立時でも 1 サイクルで実行できる

分岐命令が分岐する場合、分岐先のフェッチまでに1サイクルストールするので、レイテンシは2であるが、分岐のオフセットが0(2命令後への分岐)の場合は、分岐先フェッチのオーバヘッドがなく、1サイクルで実行できる。つまり、スキップ命令として利用できる。

たとえば、次のような命令列が考えられる。最近のMPUでも、 2命令後への分岐は特別扱いして高速化が試みられているが、これはその先駆けかもしれない(しかし、そのような場合は条件 MOVE命令を使用することのほうが多いような気もするが).

CMP/GT R1, R2 // if R2>R1 then set T-bit BT label // branch relative if

T-bit set

ADD #4, R3 // if T-bit set then

R3<-R3+4

#### label:

SH-4のパイプラインは2命令同時実行に制限が多い. このあたりはコンパイラのがんばりしだいといえるかもしれない.

日立の発表では、SH-4の性能は 200MHz 動作で 360MIPS ということになっている。これは Dhrystone1.1 による値であり、

他社が採用している Dhrystone2.1 では 300MIPS 程度という噂もある(公式発表はない). 200MHz で 300MIPS も達成できれば、インオーダスーパースカラとしては、まずまずの性能であろう。しかし、300MIPS というのも少し眉唾な気がしないでもないが(このパイプライン構造のわりに性能が良すぎる).

#### SH-5 ではシングルパイプラインへ

SH-4 の後継機種である SH-5 では、スーパースカラ構造では制御が複雑で動作周波数を上げることができないという理由で、7ステージのシングルパイプラインが採用された。これで、動作周波数は SH-4 の 200MHz から 400MHz へと向上するという。しかし、筆者には SH-4 のパイプラインが周波数の向上の妨げになるほど複雑だとは思えない(とはいえ規模は大きそうだが)。むしろ、SH-4 ではシングルパイプライン並みの効率のスーパースカラでしかなかったので、効率的なシングルパイプラインで作り直したと考えるほうが納得できる。

実際、SH-5の性能は 400MHz 動作時に 714MIPS (Dhrystone 1.1) と発表されており、IPC で見ると SH-4 も SH-5 もほとんど 同性能と思われる。これが本当なら、SH-5 はとても素晴らしい CPU といえる。個人的にはシングルパイプラインで MIPS/MHz の値が 1.785 というのは不可能だと思うのだが (どう考えても、インオーダスーパースカラの値)。その後、SH-5 の性能は Dhrystone2.1 では 604MIPS と発表された。MIPS/MHz は 1.51 である。これでも性能が良すぎる気がする。こちらも SH-4 の性能比 (噂であるが) と同じである。

# 2 R10000

#### 4 ウェイスーパースカラ構造

次は MIPS 系のプロセッサから、**R10000** を取り上げてみる. **図5** に R10000 の機能ブロック図を示す.

図を見てわかるように R10000 は、演算器として 2 個の整数 ALU、アドレス計算(ロード/ストア)ユニット、浮動小数点加

算器,浮動小数点乗算器,浮動小数点除算器(平方根器を兼ねる)をもつ。各演算器には、それぞれ16エントリからなる整数キュー、アドレスキュー、浮動小数点キューが接続されている。命令は各キューから対応する演算器に対してアウトオブオーダに発行される。

R10000 は1サイクルで、4命令を命令キャッシュからリードし、最大4命令をデコード/レジスタリネーム可能である。デコードされた命令は32 エントリのアクティブリストと呼ばれる命令キューと兼用のリオーダバッファに格納され、インオーダなリタイア [R10000 ではグラジュエート(卒業)と呼ぶ〕を管理する。1サイクルで最大4命令をリタイアできる。

演算器は6個備えているが、浮動小数点の乗算器と除算器は入力が共通なので、1度に最大5命令を発行することができる。その意味で5ウェイのスーパースカラであるが、デコード自体は1サイクルで最大4命令なので一般には4ウェイのスーパースカラと呼ばれる。

図6にR10000のパイプラインを示す。一応、7ステージパイプラインの体裁をとっているが、命令のデコード/レジスタリネーム/キューへの格納(ステージ1、ステージ2)までと、発行/実行/結果の格納(ステージ3~ステージ7)までのステージは独立に動作する分離(decoupled)方式である。アウトオブオーダ方式のスーパースカラとしては珍しくない。

R10000のアーキテクチャを MIPS 社は ANDES (Architecture with Non-Sequential Dynamic Execution Scheduling) と呼び、アウトオブオーダ実行、分岐予測、投機実行などの総称としている。レジスタリネームは 32 個の論理レジスタを 64 個の物理レジスタへ割り当てる。割り当て可能な物理レジスタはフリーリストと呼ばれるテーブルで管理される。物理レジスタは整数と浮動小数点の 2 系統が用意されている。

分岐予測は、512 エントリ×2 ビットの情報で過去2回の分岐/不分岐の履歴を保持し、予測した方向に投機実行する.投

機実行は、アクティブリストが・杯になるか、レジスタリネームのためのフリーリストが空になるまで、あるいは分岐命令を4個デコードするまで(つまり4回続けて分岐予測するまで)継続される。分岐予測のたびに、その時点での論理レジスタと物理レジスタの対応表(マップテーブル)のコピーを残しておき、分岐予測が失敗すると、そのコピーに基づいてパイプラインを分岐元の状態に戻す。R10000では演算はすべて物理レジスタに対して行われ、アーキテクチャ上のレジスタ(論理レジスタ)にはリタイア時に対応する物理レジスタから書き戻される。

#### 命令フェッチ

ここで、R10000 のパイプラインの詳細について説明する.

各サイクルにおいて、R10000 は 32K バイトの 2 ウェイセットアソシアティブ構成の命令キャッシュから 4 命令をフェッチできる。命令キャッシュに格納されている命令は 37 ビット長で、命令キャッシュのリフィル時に 32 ビット長の命令をプリデコードしたものである。この余分な 5 ビットによって各命令を分類し、その命令が実行されるユニット情報を付加することで命令デコードを効率的に行える。このプリフェッチ/プリデコードステージはパイプラインステージの中には数えられない。

#### 命令デコード

命令キャッシュからフェッチされた命令は、レイテンシが2ステージの命令デコーダに渡される。実際のデコードは最初のステージで行われ、2番目のステージではレジスタリネームが行われる。

MIPSアーキテクチャではレジスタの本数は整数用と浮動小数点用にそれぞれ32本ある。これは論理レジスタと呼ばれる。R10000はさらにレジスタリネーム用に整数用と浮動小数点用の物理レジスタをそれぞれ64本備えている。プログラム的には32本の(論理)レジスタしか見えてないが、MPU内部では2倍の本数の(物理)レジスタが処理結果を保持している。

レジスタリネームはアウトオブオーダな投機実行を実現する





# スーパースカラの実際

ために重要である. R10000 は演算の中間結果や投機実行の結果を, この不可視な物理レジスタに保持する. これらの結果はすべての依存性が解決され, 投機的な実行経路が消え去ったときにプログラムから見えるようになる.

MPU内部で何が起きているかを管理するために、R10000 はすでに使用されているレジスタ(の番号)を保持するアクティブリストと利用可能なレジスタ(の番号)を保持するフリーリストを用意している。アクティブリスト内のレジスタは二つの状態を取ることができる。一つは「アクティブ」である。つまり、実行中の命令で使用されている状態である。もう一つは「コンプリート」である。つまり、命令実行の最終結果を示す状態である。

ある瞬間には最大32命令が「アクティブ」状態にある.「コンプリート」状態になり結果がグラジュエートすると,不要になったレジスタはアクティブリストから削除されフリーリストに返却される.投機実行はフリーリストに利用可能なレジスタがあり,レジスタリネームが可能な限り継続できる(アクティブリストに空きがあることも必要)

#### • 命令実行

R10000 は各サイクルにおいて、最大4命令をフェッチし、最大4命令をグラジュエートするが、その中間には五つの実行ユニットがある。このため、可能性としては、各サイクルで、5命令を同時発行、実行、コンプリートできる。このため、R10000 は4ウェイスーパースカラとも5ウェイスーパースカラとも呼ばれる。しかし、命令の処理数に関するこの不整合は偶然ではない。ピークのバンド幅を大きくしておくことで、内部資源の割り当てが効率よく行えるし、将来の拡張の余地を残している。……という説明はもっともらしいが、本当にピーク時のバンド幅を考慮するなら、整数演算 ALUも FPU も4個ずつ用意すべきであろう。実際、後継機種ではそのような構成を採るという動きもあったようだが、いまだ実現には至っていない。

機能ユニットは二つの64ビット整数演算ALU、一つのロード/ストアユニット、二つのFPUからなる。FPUのうち、一つは加減算用、残りは乗除算/平方根用である。後者のFPUは実際には、同一の発行/コンプリート論理を共有する、乗算、除算(平方根を含む)を行うサブユニットの組である。それらは浮動小数点の乗算と除算を(同時発行はできないが)並行に実行できる。

二つの 64 ビット ALU はほとんど同一である。ただし、乗除 算は一方の ALU でしか処理できない。他方のユニットには分 岐予測の結果を確かめる論理がある。シフトも一方のユニット でしか実行できない。ロード/ストアユニットはすべてのアドレス計算、アドレス変換を処理する。

ここで問題となるのは NOP 命令である。 MIPS アーキテクチャの NOP 命令は「SLL r0, r0, r0」, つまりシフト命令である。 プログラム中にかなりの頻度で出現する NOP 命令が片方の ALU でしか実行できないというのは性能上問題である。 これを回避するため,  $\mathbf{R}_{10000}$  では NOP 命令はプリデコード時に 「ADD r0, r0, r0」などの並列実行可能な命令に変換している

と聞く、また、これを考慮してか、最新の MIPS32/MIPS64 アーキテクチャでは SSNOP (SuperScalar NOP) なる命令が定義されている。

五つの実行パイプラインはすべて、最低1ステージからなる 実行ステージと、上述のフェッチ、デコード、リネームステー ジをもち、最後がグラジュエートステージである。このためパ イプラインの最小ステージ数は5ステージである。

命令は最初の3ステージを通過するときにはプログラムの順序を維持している。そして、3種類のキューに格納され、最適な実行ユニットに発行されるのを待つ。これらのキュー(ALU、FPU、ロード/ストアユニット用)のそれぞれは16エントリからなり、そのキューのどの位置からでも発行ができる。つまり、この時点からプログラムの順序を維持しなくなる。

ある条件下では、R10000は1サイクルで最大5命令をキューからアウトオブオーダに発行できる。しかし、多くの場合は、命令の依存性に応じて $1\sim4$ 命令を発行する。IPCから察するに、平均は2命令前後であろう。

ロード処理はデータキャッシュにヒットするときに2サイクルかかる。また、ロードは投機的にアウトオブオーダで実行される。これに加え、ノンブロッキングキャッシュ構造によりロードを効率的に処理する。ノンブロッキングとは、ロードがキャッシュにミスしてもストールすることなく先に進める技術である。アウトオブオーダで命令の追い越しが可能な場合、とくに効果的である。R10000では最大四つのロードをノンブロッキングで実行できる。

#### グラジュエート(リタイア)

グラジュエートとは物理レジスタの内容を対応する論理レジスタに書き戻す処理である. リタイアとも呼ばれ, インオーダな完了を実現する.

パイプラインの最終ステージにおいて、命令がコンプリートしていても、すべての依存性が解決され、投機的な実行経路が確定するまでは、グラジュエートできない。R10000 は正確な例外を保証するので、例外を起こす命令の後続命令はコンプリートしていても、その命令は同様にグラジュエートできない。

グラジュエート時には、物理レジスタが論理レジスタにリネームし直され、その内容が有効になる。このとき、もっとも前にコンプリートした命令から最初にグラジュエートする。グラジュエートを管理するのはアクティブリストである。あるサイクルにおいて、アクティブリストの先頭から見て連続してコンプリートしている命令が、その時点でのグラジュエートの対象になる。したがって、アクティブリストの先頭の命令がコンプリートしない限りは1命令もグラジュエートできない。R10000は各サイクルで、最大4命令をグラジュエートできる。この操作により、命令の流れがその本来のプログラムの順序に戻される。

#### • R10000 の性能

MIPS の発表では R10000 の IPC は 1.5 だという. これが, Dhrystone MIPS ではなく,本来の意味の MIPS 値から求めら

れたものとすればかなりの高性能である. 出典は失念したが、4 ウェイスーパースカラでは IPC は 1.5 程度が限界だそうである. つまり、R10000 は IPC 的には究極の性能を達成しているといえなくもない.

余談であるが、R10000の後継機種である R12000 では、動作周波数が 200MHz から 300MHz に引き上げられたほかに、マイクロアーキテクチャ的には、アクティブリストが 48 エントリに、分岐予測テーブルが 2048 エントリに増加している。また新たに 32 エントリの分岐ターゲットバッファが追加された。R12000の後継機種として R14000、R14000A、R16000 が開発されており、その動作周波数は 500 MHz、600 MHz、700 MHzである。とくに R16000 は 2003 年 4 月に発表されたが、1 GHz

をはるかに下回る周波数は寂しい.

# 3

### PowerPC750

パイプライン

次は PowerPC アーキテクチャのプロセッサを取り上げてみ

# Column

# **V<sub>R</sub>4131 のパイプライン**

 $V_R4131$  は NEC が開発した 64 ビット MIPS プロセッサである。同社の組み込み制御用 MIPS RISC としては初めてスーパースカラ構造を採用した。  $V_R4131$  の特徴は、性能もさることながら、低消費電力である点である。通常のスーパースカラ構造では消費電力が上がってしまうため、ユニークなパイプライン構造を採用している。  $V_R4131$  では 8n 番地と (8n+4) 番地の命令が必ず組で処理される。このため、スーパースカラと呼ぶよりも VLIW と呼ぶほうがすっきりする。 VLIW 構造を採用することで制御回路を単純化し、低消費電力を図っているのである。これは、Transmetaの Crusoeの主張に近い。

 $V_{v4131}$  のパイプラインは典型的な次の6ステージからなる.

- 1) IF : 命令フェッチ
- 2) RF : レジスタフェッチ/命令デコード
- 3) EX : 実行
- 4) DC1 : データキャッシュ(その1)

5) DC2 : データキャッシュ(その2)

6) WB : ライトバック

このパイプラインを一言で表せば「隣接する2命令単位で処理するシングルパイプライン」である。MIPSの命令は4パイト固定長なので、8n番地と(8n+4)番地の命令を一つの命令とみなし、それを6ステージのシングルパイプラインで実行する〔図A(a)〕。そのためにすべての演算器を2系統備えている(乗除算とロード/ストアユニットは例外)。

隣接する 2命令を同時に実行するわけであるが、その命令間にレジスタの RAW 依存性がある場合は、当然不都合が起きる。それを回避するために、 $V_{R}4131$ ではレジスタの RAW 依存がある場合は、(8n+4) 番地の命令を RF ステージで 1 クロック待ち合わせて、8n 番地の演算結果を EX ステージからフォワーディングする。つまり、2命令を、依存性がない場合は 1 クロックかけて実行し、依存性がある場合は 2 クロックかけて実行する [図 A (b)]。また、実行ユニットを一つしか備えない乗除算命令やロード/ストア命令が隣接する場合は、強制的に依存関係を発生させて逐次的に実行させると思われる。





命令1と命令2、命令4と命令5に依存性があると仮定

(b) V<sub>R</sub>4131のパイプライン(依存性あり)



よう、PowerPCはIBMとモトローラが独自に開発している MPUであり、その種類も豊富である。しかし、その内部構造 はどれも似ている。

ここでは、任天堂の GAMECUBE の MPU である Gekko の 基になった PowerPC750 に関して説明する。Gekko は IBM が 開発した MPUで、PowerPC750 (以降 PPC750と略)を下敷き に単精度 FPU の強化と L2 キャッシュを内蔵したものである.

図7 に PPC750 の内部ブロック図を示す。また、命令の流れ とパイプラインは、それぞれ、図8、図9のようになる.以下 にそれぞれのユニットの動作について説明する。なお、図9の 各ステージの説明は次のとおりである.

#### ▶フェッチ

フェッチステージは命令が要求されてから命令キューに格納 されるまでの間を示す。レイテンシは可変で、命令が BTIC、 内蔵キャッシュ、L2 キャッシュ、システムメモリのどこにある かに依存する. 命令キューは IQo~IQ5の六つのエントリを もっている。

#### ▶ディスパッチエントリ中

命令はIOoとIO1からディスパッチされる。ディスパッチは 瞬間に行われるので「フェッチステージの最後のサイクル」と 「実行ステージの最初のサイクル | の中間の時点を表す事象とし て記述する.

#### ▶実行

命令によって規定される処理はそれに最適な実行ユニットで 行われる. この「実行ステージ」から完了(コンプリーション) キューに入る.

#### ▶コンプリート

命令はコンプリーションキューにある。PPC750ではコンプ リーションキューがリオーダバッファの役割をしている. 最終 ステージにおいて、実行された命令の結果がライトバックされ、 命令はリタイアする。 コンプリーションキューは COo~CO5 の六つのエントリをもっている.

#### ▶リタイアメントエントリ中

コンプリートした命令は CQoと CQ1 からリタイアできる. ディスパッチと同様に、リタイアはコンプリートステージにお ける最後のサイクルの終わりで発生する事象である。

#### 命令の流れ

PowerPC において命令は命令ユニットから実行ユニットに流 れて処理される。命令ユニットは逐次フェッチ器。6エントリの 命令キュー(IQ), ディスパッチユニット, 分岐処理ユニット (BPU)からなる. 逐次フェッチ器とBPUから供給される情報に 基づいてフェッチすべき次のアドレスが決定される。そして、逐 次フェッチ器は命令キャッシュから命令を読み出して命令キュー に渡す。BPU は逐次フェッチ器に読み込まれる分岐命令を解析 し、分岐条件が確定している場合は分岐命令を削除してフェッ チを分岐先に切り替える. 分岐条件が確定していない場合は, 静的または動的な分岐予測を行い、投機実行をする。分岐条件

が確定する間にフェッチした命令は BPU に保持される.

図7や図8に示すように、PPC750では命令キューとリザベー ションステーションが分離されている。命令キューが、いわゆ る通常のリザベーションステーションにあたり、PPC750のリ ザベーションステーションは、後続命令を時間的なロスなしに 実行するための、単なるバッファの役割しかしていない(よう に思える).

命令はインオーダに各実行ユニットのリザベーションステー ションに渡されて逐次的に実行される. 各実行ユニットの処理 は独立なので、全体としてはアウトオブオーダ実行に なる. 命令はコンプリーションキュー(コンプリーションユニッ トのリオーダバッファのこと)の管理の下、インオーダに終了 する

命令の処理はリネームされたレジスタに対して行われ、コン プリーションユニットによるリタイア時にアーキテクチャ上の レジスタ(GPR, FPR)に書き戻される.

#### 命令キューとディスパッチユニット

命令キュー(IQ)は最大6命令を格納できる。命令フェッチ器 は IO に空きができると直ちに命令キャッシュから命令を読み 込む. そして、分岐命令を除くすべての命令は、1クロックに 最大2命令の割合で、IOの先頭とその次(IOo、IO1)から各実 行ユニットにディスパッチされる。五つの実行ユニット(IU1, IU2, FPU, LSU, SRU) はそれぞれ独立にリザベーションス テーションをもっている. ディスパッチユニットはソースとデ スティネーションレジスタの依存性をチェックし、コンプリー ションキューに空きがあれば新しい命令を、その命令が実行さ れるべき実行ユニットに、ディスパッチする。これは、各ユ ニットのリザベーションステーションに命令を移動することに 等しい。

#### 分岐処理ユニット(BPU)

BPUは、逐次フェッチ器から分岐命令を受け取り、条件分岐 に関する CR (Condition Register) の先読み操作を行うことで分 岐条件を早期に確定する。これにより、多くの場合、0サイク ルで分岐を実現できる. 無条件分岐と条件が確定している条件 分岐はただちに実行される.

分岐条件が未確定な条件分岐命令に関しては、アーキテク チャ的に定義された静的な分岐予測または動的な分岐予測を用 いて分岐の経路が予測される. 予測により, 予測した経路から, 命令フェッチ、ディスパッチ、実行が行われる。しかし、予測 が正しいと決定(解決)されるまで、それまでに処理した命令は コンプリートすることができず、結果をレジスタにライトバッ クすることもできない.

もし、予測を誤った場合、誤った経路の命令はプロセッサか らフラッシュされ、正しい経路からの処理が開始される。いわ ゆる投機実行であるが、PPC750は2番目の分岐命令まで予測 することができる。2番目に予測された命令の経路からは、命 令のフェッチはできるがディスパッチはできない.



# スーパースカラの実際



[Q5 → [Q4 → [Q3 → [Q2 → [Q1 → [Q0

コンプリート

(リタイア)

コンプリーション

動的な分岐予測には512 エントリの分岐履歴テーブル(BHT)を用いる。これは各エントリに2ビットの情報を保持し、それらは、分岐命令に対する「NOT TAKEN」、「強い NOT TAKEN」、「強い TAKEN」という四つのレベルを示す。もし、動的な分岐予測ができない場合は、条件分岐命令に埋め込まれている予測ビットを使用する。

このように、PPC750 は未解決の条件分岐命令に出会うと、分岐が解決するまで結果をアーキテクチャ上のレジスタにライトバックはしない(リネームレジスタに保持する)が、予測した分岐先からの経路からの命令を実行する(投機実行)、この実行は2番目の未解決な分岐命令に出会うまで継続する。もし、分岐がTAKEN(TAKENと予測)するとき、TAKENしない経路からの命令は破棄され、予測した側の命令の経路がIQにフェッチされる。

BTIC (Branch Target Instruction Cache) は、最近使用された分岐先の2命令を保持する64 エントリのキャッシュである。命令フェッチがBTIC にヒットするとき、命令は次のクロックサイクルで命令キューに与えられる。これは命令キャッシュからリードするよりも1クロック早い。それに引き続く命令は次のクロックサイクルで命令キャッシュからリードされる。つまり、BTIC は誤って命令をディスパッチする回数を減らし、ターゲットストリームからの1クロック早い開始を可能にする。

BPU は分岐のターゲットアドレスを計算する加算器と3個のユーザーが制御するレジスタであるリンクレジスタ(LR),カウントレジスタ(CTR),CRを含む.BPU はある種の分岐命令ではサブルーチンコールの復帰位置を計算し、LR レジスタに格納

する. さらに LR は分岐コンディショナルリンクレジスタ (bclrx) 命令に対するターゲットアドレスを含む. CTR はカウントレジスタに対する条件分岐(bcctrx) 命令の分岐ターゲットアドレスを含む. LR や CTR は特殊レジスタ(SPR)であり、その内容は GPR間で転送可能である. BPUはGPR(整数レジスタ)や FPR(浮動小数点レジスタ)と独立の特殊レジスタを使用するため、分岐命令の実行は整数や浮動小数点命令の実行とは独立して行うことができる.

 コンプリーションユニット コンプリーションユニットは命令ユニットと密接に連動して動作する。命令はプログラムの順序でフェッチされディスパッチされる。ディスパッチ時に、6エント



リのコンプリーションキューの連続するエントリに、その命令を入れることによってプログラムの順序を保持する。コンプリーションユニットは命令を、ディスパッチから実行を通じて、追跡し、コンプリーションキューの二つの出口(CQo, CQ1)からプログラムの順序でリタイアさせる。コンプリーションキューに空きができるまで命令を実行ユニットにディスパッチすることはできない。

また、CTRやLRを更新しない分岐命令は命令ストリームから削除され、コンプリーションキューのエントリを占有することはない。CTRやLRを更新する命令は、それらが実行ユニットに発行されないことを除き、非分岐命令と同様にディスパッチされコンプリートする。

命令をコンプリートさせることはアーキテクチャ上のレジスタ(GPRやFPR, LR, CTR)に実行結果をライトバックすることである。インオーダなコンプリーションを行うことにより、PowerPCが分岐予測の誤りを回復するときや例外を発生する場合の正しい動作を保証する。命令がリタイアするとき、その命令はコンプリーションキューから削除される。



## **Pentium**

Uパイプ/Vパイプのスーパースカラ構造

Pentium (P5) のパイプラインは、i486 と同様の5ステージから構成される。MMX Pentium ではフェッチステージが1段追加されて6ステージになる。イメージ的にはそのパイプラインが2本並列に動作するインオーダスーパースカラ構造である。二つの汎用整数パイプラインに加えて、パイプライン化された FPU 演算を同時に実行できる。

これら二つの整数パイプラインは、UパイプとVパイプと呼ばれる。Uパイプではすべての命令を実行できる。一方、Vパイプでは単純な命令のみを実行できる。同時発行可能な2命令をデコードしたとき、(プログラムの順番で)先行する命令はUパイプで、後続する命令はVパイプで実行される。イメージ的には、Uパイプが常に動作していて、後続命令が同時実行可能な場合のみVパイプも使用する。といったところか。

**図 10** に Pentium のブロック図を示す. なお, 五つのパイプラインステージの内訳は, 次のようになっている(**図 11**).

1) **PF** : プリフェッチ

2) F : フェッチ (MMX Pentium のみ)

3) D1 : 命令デコード

4) D2 : アドレス生成

5) EX : 実行(ALU 演算とキャッシュアクセス)

6) WB : ライトバック

• 各ステージについて

PFステージでは命令キャッシュまたはメモリから命令がプリフェッチ(先取り)される. Pentium では、従来のi486 などとは異なり、キャッシュが命令キャッシュとデータキャッシュに分

かれているので、プリフェッチがデータ参照と競合しない。PF ステージでは、二つの独立なラインサイズ(16 バイト×2)の組み合わせのプリフェッチバッファが分岐ターゲットバッファ(BTB)と結合されて動作する。条件分岐命令に行き当たるまではプリフェッチは逐次的に進む。条件分岐命令がプリフェッチされるとBTBで分岐予測が行われ、片方のプリフェッチバッファは分岐先のプリフェッチに使われる。これにより、分岐予測によるプリフェッチと同時に、本来のプリフェッチを続行できる。MMX Pentiumでは四つの16 バイトのプリフェッチバッファで最大四つの独立な命令の流れをプリフェッチ可能らしい。本当なのかと疑ってしまうが、これはユーザーズマニュアルからの受け売りである。

Fステージは MMX Pentium のみに存在する。このステージでは命令の長さをデコードする。これは従来 D1 ステージで行われていた処理である。プリフィクスのデコードも Fステージで行われる。

MMX Pentiumでは、さらに、Fステージと D1ステージの間に命令キュー (FIFO) が存在する。FIFO が空のときは、命令は遅延なしで D1ステージに渡される。FIFO は 4 命令分用意されていて、各サイクルで 2 命令を格納可能である。FIFO からは 2 組の命令が引き出されて D1ステージに渡される。FIFO は通常命令で満たされているので、常に 2 命令を取り出すことが可能で、1 サイクルで実行される平均命令数は 2 に限りなく近づく。FIFO がうまく機能している限りは、命令フェッチとFIFO からの命令の切り出しでストールは生じない。

D1ステージでは連続する2命令を同時にデコードし発行する. 同時に発行できる命令の組は次のような関係にあるものである.

- a) ハードワイヤード化された単純な命令
- b) レジスタの依存性がない
- c) ディスプレースメント付きとイミディエートの組でない
- d) プリフィクスでない

なお、FステージをもたないPentiumではプリフィクスがある時だけD1ステージを繰り返す。また、プリフィクスは、他の命令と組になることはなく、Uパイプのみで実行される。すべてのプリフィクスが発行されると、ベースとなる命令(プリフィクスが付加されていた命令)は次の命令と同時発行が可能になる場合もある。

D2ステージではメモリオペランドのアドレスを計算する. また, レジスタオペランドをリードする. i486では, ディスプレースメントとイミディエートを同時に含む命令, または, ベースとインデクスを持つ命令はもう  $1 \odot D2$ ステージが必要だったが, Pentium では不要になった.

EX ステージは ALU 演算とデータキャッシュへのアクセスを行う。 ALU 演算とデータキャッシュアクセスの両方の処理が必要な場合,このステージではさらに 1 クロックが必要である。 EX ステージでは分岐予測の正当性の検証も行う。ただし,V









パイプの条件分岐の検証は WB ステージで行われる。また、マイクロコードで実行される複雑な命令は Uパイプと Vパイプの両方を使う。

WBではプロセッサの状態を更新して実行を完了する. Uパイプと Vパイプで実行される命令は同時に D1, D2ス テージに入り、同時に抜けていく。当然、EXステージにも同時に入る。もし、片方のパイプがストールすれば他方のパイプもストールする。両方のパイプの命令がWBステージに達するまで、新たな命令はEXステージに入って来られない。こうして、インオーダ完了を実現している。

#### 〔図 12〕Pentium II のパイプライン



Pentium II (P6) のパイプラインは複雑である. 動作周波数 を上げるためにスーパーパイプライン構造を採り、IPCを上げ るためにアウトオブオーダなスーパースカラ構造を採っている. 14 ステージのパイプラインは次の三つのセクションに分割でき る. そして, これらのセクションは独立に動作する(図12).

- a) インオーダな前処理(8ステージ)
- b) アウトオブオーダ実行(3ステージ)
- c) インオーダなリタイア(3ステージ)

パイプラインのステージ数は、機能分割のやり方で12ステー ジ, または 10 ステージという説もある. ここでは、Pentium II が発表された当時の一般的な解説記事にしたがう。インテルの 公式資料ではステージ数は明記されていなかったと記憶してい る. マニュアルにある図のステージ数を数えると 13 ステージの ようにも思えるが、実行ステージを抜いて12ステージという解 釈が有力であった。なお、Pentium4の発表にあたり、Pentium Ⅱのパイプラインステージ数は公式に10ということになった.

Pentium は (かなり制限のある) 2 命令同時発行の MPU だっ たが、Pentium II では3命令同時発行になった。単にパイプラ インの本数を増やしただけでなく、Pentium II は x86 命令を μOPという RISC 風の固定長命令に変換し、効率的にパイプラ インを処理する。x86命令の欠点(?)として、エンコード(命令 コードのビット並び)に規則性がないこと、レジスタ-メモリ間 演算、可変長命令などが挙げられるが、従来はこれらの特徴が 効率的なスーパースカラ処理の妨げとなっていた. μOPを導 入することで命令のデコードが容易になり、RISC並みのパイ プライン効率を得ることができる.

図13に Pentium II の機能ブロックを示す。この図を基に命 令処理の過程を説明する.

#### x86 命令の変換

x86 命令から μOP への変換は、パイプラインの最初の8ス テージで行われる. まず, 分岐ターゲットバッファ(BTB)が指 し示す位置の64バイト(キャッシュ2ライン分)のコードを命令 キャッシュから読み込む、その中で、最初にある x86 命令の先 頭から16バイトのコードを取り出して、並列動作する三つの デコーダに渡す。x86アーキテクチャは可変長命令を採用し、 プリフィクスを付加することで(理論上)無限長の命令を生成す ることができる。

アウトオブオーダ

セクション

Pentium II は、1命令の長さを平均5バイトと仮定している のであろう。もっとも、16バイトのコードのうち、この時点で 命令の切れ目は不明なので、三つの命令デコーダは16バイト すべてを受け取ると推測される。Pentium系のMPUでは、命 令が 16 バイト境界にまたがる場合は命令の実行効率が落ちる といわれているが、それはここに原因があると思われる.

さて、PentiumⅡの命令キャッシュは1ラインが 32 バイトな ので、その中の任意の位置から始まる16バイトのコードを得る ために、二つのラインが同時に読み込まれる。そして、これら 3種の命令デコーダが x86 命令を RISC 命令によく似た μOP に 変換する。三つのデコーダのうち、二つが単純デコーダ、残り が複雑デコーダである。単純デコーダは一つの x86 命令を一つ のμOP に変換する。複雑デコーダは一つの x86 命令を一つから 四つのμOPに変換する. とくに複雑な命令は複雑デコーダでも デコードできず、そこを通過してマイクロコード命令シーケン サ(MIS)に渡される、MIS は必要なだけの $\mu$ OP を生成する。

たまたま複雑な命令が単純デコーダに割り当てられる場合は, そこから複雑デコーダまたは MIS に渡される。ここでのデコー ドの遅れはリザベーションステーションで吸収されるので、命 令の実行には影響ない.

単純な命令と複雑な命令のデコーダへの割り当てが完璧な場 合は、1サイクルごとに六つのμOPを生成する。しかし、平均 的には1サイクルごとに三つのμOPが生成される。これを根 拠にインテルは Pentium II を「3 ウェイスーパースカラ」と呼ん

#### 〔図 13〕 Pentium II のブロック図



でいる.

#### レジスタリネーム

 $\mu$  OP に変換された x86 命令は、パイプラインの第7ステージでレジスタエイリアステーブル [Register Alias Table: レジスタ読み替え表(RAT)] に送られてレジスタリネームが行われる。ここで偽の依存性 (WAW ハザードなど) を解消する。

x86 アーキテクチャは汎用レジスタ (論理レジスタ) が 8 本しかないので、レジスタの依存関係は生じやすい、それを軽減させるため、Pentium II では 40 本の物理レジスタをもつ、つまり、Pentium II は内部的に 40 本の汎用レジスタをもっていることになる。

レジスタリネームでは、真の依存性(RAWハザードなど)は 解消できない。しかし、PentiumIIではレジスタのフォワーディ ングを行うので、そのペナルティを軽減できる。

### ● アウトオブオーダ実行

レジスタリネームが完了すると、プログラムの順序で、 $\mu$ OP はリオーダバッファ (ROB) に送られると同時にリザベーションステーションにキューイング (待ち行列に入れる) される. これは、デコーダと実行ステージの中間に位置する. リザベーションステーションは最大 20 個の  $\mu$ OP を蓄えることができ、11 個の実行ユニットに対して、1 サイクルで最大五つの $\mu$ OP を発行できる (入力ポートが五つあるため). もっとも、典型的な x86

の命令列では1サイクルに発行できる $\mu$ OP はたかだか3命令といわれている。

リザベーションステーションは、ソースオペランドが使用可能になったか、実行ユニットが空いたか、依存性が解消できたかを調べて、用意ができた $\mu$ OPをアウトオブオーダに発行する。アウトオブオーダにコンプリートする $\mu$ OPの結果は一時的なバッファ(ROBやMOB)に格納され、ROBの状態を参照しながら、プログラムの順序にレジスタやメモリに書き込まれる。

ROB は 40 エントリからなる 254 ビット幅のバッファである. 254 ビットの内訳は、二つのオペランド、実行結果、多くの状態ビットである。ROB には整数と浮動小数点の  $\mu$ OP の両方が格納される。ROB や MOB から取り出す処理はパイプラインのリタイアのステージで行われる。

#### • リタイア

ROB は実行状態と各  $\mu$  OP の結果を保持する。  $\mu$  OP は先行する  $\mu$  OP がすべてコンプリートしたことがわかって初めてリタイアし、結果をレジスタやメモリに書き込む。この動作を「コミット」ともいう。 Pentium II では 1 サイクルに最大三つの  $\mu$  OP をリタイアできる。これは、デコーダが 1 サイクルに発行できる平均的な  $\mu$  OP の個数 (3 命令) と釣り合いが取れている。

オペランドのフォワーディングのために、それぞれの実行ユニットの結果はすべてリザベーションステーションに戻される.

実行ユニットの結果は ROB にも戻されて、リタイアの準備ができたか否かを決定する。

レジスタに対する結果は ROB に書き込まれるが、メモリに対する結果はメモリオーダバッファ (MOB) に書き込まれ、対応する  $\mu$  OP がリタイアするまで一時的に格納される。メモリライトを生じる  $\mu$  OP がリタイアして初めて MOB はメモリにデータを書き込む。

#### • 分岐予測は必須

Pentium II はパイプラインのステージ数が多いので、分岐予測は必須である。分岐予測を誤った場合のペナルティは  $4\sim15$  サイクルである。これはかなりの性能低下になるので、高度な分岐予測が要求される。

Pentium (P5) と同様、Pentium II は分岐ターゲットバッファ (BTB) を採用する。予測方式は分岐履歴ビットによる。一つの分岐先アドレスに対して、過去4回分の履歴を記録しておき、それにしたがって予測する。これは基本的に Pentium と同じで、4回のループならほぼ 100 %の分岐予測が可能だという。BTB にヒットしない分岐命令はオフセットの正負などから静的な分岐予測を行う。インテルの主張では、分岐予測の正確さは、Pentium が 80 %だったのに対して、Pentium II は 90 %だという。逆にいえば、分岐予測を誤る確率は 20 %から 10 %へと半分になったということである(数字のマジック?)。

Pentium II で採用している分岐予測の方式は2レベル適応履歴アルゴリズムというものだが、詳細は明らかにされていないただし、命令キャッシュのラインごとに四つの分岐先アドレスをBTBで予測することが公表されている。

#### ● 投機実行

Pentium II も、分岐予測を有効に活用するために投機実行を行う. Pentium II では、分岐予測が失敗した場合の回復処理は、

〔図14〕Penitum4のブロック図 — ➤ システムバス → ひんぱんに通る経路 バスユニット ---▶ あまり通らない経路 L3キャッシュ サーバ機のみ データキャッシュ L2キャッシュ L1キャッシュ 8ウェイ 4ウェイ ↓ フロントエンド フェッチ/ トレース 実行 デコード キャッシュ アウトオブ リタイア オーダコア BTB/分岐予測 分岐履歴の更新

投機的に実行された命令に対する ROB のエントリを無効化することで実現している。Pentium II では他の多くの MPU と同様に、一つ以上の分岐の方向を予測し実行していくという,多重レベルの投機実行を許している。ただし、ROB が一気に無効化されるため、分岐予測失敗時のペナルティは非常に大きい。

Pentium II ではサブルーチンに対する CALL/RET の組を高速に実行する機構をもっている。サブルーチンはプログラムのさまざまな場所から呼ばれるので、RET 命令の分岐先を予測するのは難しい。Pentium II ではリターンスタックと呼ばれる機構でRET 命令の分岐先を予測する。これは CALL 命令のデコード時に戻りアドレスを格納するスタックである。RET 命令をデコードするとリターンスタックにあるアドレスから分岐先を取り出して、そのアドレスを予測したアドレスとして命令フェッチする。物理的なスタックの内容は他の命令で変更されるおそれがあるので、リターンスタックのアドレスはあくまでも予測値でしかないことに注意すること。なお、これはスタックキャッシュとして昔から知られている手法である。



# Pentium4

#### ハイパーパイプライン

インテルの開発した Pentium4 (コード名 Willamette) は、PeitiumIIIに続く製品として 2000 年に登場した。2GHz以上の動作周波数をめざし、従来の倍のパイプラインステージを採用したため、同一動作周波数では PentiumIIIよりも性能が劣る。このような状況は、アーキテクチャの変更時には多々あることであり、避けて通れない道である。しかし、何だかんだいっても、現在の IA-32 プロセッサの主流は Pentium4 になっている。

Pentium4のマイクロアーキテクチャは、「NetBurst」と呼ばれる。ここでは、NetBurstのパイプラインの概要について述べる。 **図 14** に Penitum4のブロック図を示す。Pentium4のパイプラインは次の三つの部分から構成される。これは、Pentium  $\Pi$  のパイプラインと同様である。

#### ▶インオーダな発行を行うフロントエンド

▶アウトオブオーダなスーパースカラ実行コア

#### ▶インオーダなリタイアユニット

フロントエンドはプログラム順の命令をアウトオブオーダな実行コアに供給する. つまり、IA-32命令をフェッチし、デコードし、マイクロ操作 ( $\mu$ OP) に変換する. フロントエンドの主要な仕事は、 $\mu$ OP の連続的な流れを本来のプログラムの実行順序で実行コアに供給することである.

実行コアは1クロックに複数の $\mu$ OPを発行し、その $\mu$ OPの入力の準備ができて、実行に必要なハードウェア資源が利用可能なものから、 $\mu$ OPの順序を入れ替えて実行する。

リタイア部は $\mu$ OPの実行結果が本来のプログラムの順序にしたがって処理されることを保証し、必要なアーキテクチャ上の状態を更新する.

#### 〔図 15〕Pentium4のパイプライン -

| Prefetch Decode | Decode | Execute | Wrtback |
|-----------------|--------|---------|---------|
|-----------------|--------|---------|---------|

(a) P5のパイプライン

|  | Fetch | Fetch | Decode | Decode | Decode | Rename | ROB Rd | Rdy/Sch | Dispatch | Execute |
|--|-------|-------|--------|--------|--------|--------|--------|---------|----------|---------|
|--|-------|-------|--------|--------|--------|--------|--------|---------|----------|---------|

(b) P6のパイプライン

| TC Next IP TC Next IP | TC Fetch | TC Fetch | Drive | Allocate | Rename | Rename | Queue | Schedule |
|-----------------------|----------|----------|-------|----------|--------|--------|-------|----------|
|-----------------------|----------|----------|-------|----------|--------|--------|-------|----------|

| Ι. |          |          |          |          |          |          |         |       |          |       |
|----|----------|----------|----------|----------|----------|----------|---------|-------|----------|-------|
| -  | Schedule | Schedule | Dispatch | Dispatch | Reg File | Reg File | Execute | Flags | Br Check | Drive |

(c) NetBurstのパイプライン

#### • パイプラインステージ数

Pentium4 の発表にともない、インテルから NetBurst のパイプ ラインが公表された(図15)、インテルの公式見解では、Pentium のパイプラインは5ステージ, Pentium II のパイプラインは10 ステージ、NetBurst は 20 ステージということになったようだ. 20というステージ数は従来のスーパーパイプラインを超えると いう意味で「ハイパーパイプライン」と呼ばれる。各ステージの 具体的な動作に関しては公式な説明がない、ステージの名称か ら推測するしかないが、けっこう複雑なことをやっているよう な気がする.

パイプラインのステージ数が増えた理由は、動作周波数を向 上させるためである.Pentium が 233MHz 動作,Pentium II が 1GHz 程度の動作であるのに対し、NetBurst では 1.4GHz 動作 をはじめとして3GHz以上の動作を達成できるといわれている. Pentium4 (NetBurst) は、動作周波数が 2GHz を超えて初めて 存在価値がでてくる.

ところで、NetBurstのIPCが低いということは、パイプ ラインがスカスカであることを意味する。これは HyperThreading を実現するためという意見もあるが、真偽はわからない。

- 二つの部分からなるフロントエンド フロントエンドは、二つの部分からなる、すなわち、
- ●フェッチ/デコードユニット
- 実行トレースキャッシュ

である。また、フロントエンドは次の基本機能を実行する。

- ●実行されると予想される IA-32 命令をプリフェッチする
- プリフェッチされていない命令をフェッチする
- 命令をデコードしμOP に変換する
- ●複雑な命令と特殊用途のコードに対しマイクロコードを生成
- デコード済みの命令を実行トレースキャッシュから供給する
- ●高度なアルゴリズムを用いて分岐予測を行う

さらにフロントエンドは、高速なパイプライン処理に関する 一般的な問題のいくつかに注目している。たとえば、次の二つ の問題に起因する遅延がある.

◆分岐先からフェッチする命令のデコード時間

●キャッシュラインの中間に位置する分岐や分岐先に起因する デコードの負荷

実行トレースキャッシュは、デコードした IA-32 命令を格納 することで、これら二つの問題を解決できるように設計されて いる。命令は変換エンジンによってフェッチされデコードされ る. 変換エンジンはデコードされた命令を用いて、トレースと 呼ばれる一塊の uOP に変換し、実行トレースキャッシュに格 納する. 実行トレースキャッシュは, これらの μOP をプログラ ムの実行順序にしたがって格納する. そこでは、コード中に出 現する条件分岐の結果(分岐先または分岐元の命令)は予測され て同一のトレースキャッシュのラインに格納される。これによ り、分岐によって実行されない命令を格納しないため、キャッ シュ容量の効率的な利用が可能になる。あるいは、実行トレー スキャッシュは分岐命令をある程度削減しているので、分岐に よるペナルティをあらかじめ低減する意味もあると思われる.

実行トレースキャッシュは、実行コアに1クロックに最大三 つの μOP を供給できる。この実行トレースキャッシュと変換 エンジンは連動する分岐予測ハードウェアと連動している。分 岐先はそのリニアアドレスに基づいて予測され、できるだけ早 くフェッチされる。分岐先は、もし実行トレースキャッシュに キャッシュされているなら、そこからフェッチされる、もし キャッシュされてない場合は、外のメモリ階層(L2 キャッシュ など) からフェッチされる、変換エンジンの分岐予測は実行され ると予想される経路にしたがってトレースを形成する.

● 実行トレースキャッシュの構造

さて、インテルが出願している米国特許6,014,742にしたがっ て、実行トレースキャッシュの構造を予想してみる。トレース キャッシュは図16のような構成をしている。ある程度の数の命 令(μOP)を実行順に(予測して)並び替えたものがトレースで ある.

トレースを形成するとき, 分岐予測にしたがって動的に実行 される命令の流れを追っていくが、それは無限に継続するので はなく, ある程度進んだ時点で中断する. 単純には分岐から分 岐までを一つのトレースとして形成すればいいのだが、前記の 公開特許ではトレース内に条件分岐命令が含まれることを想定 している。

トレースを実際にどの時点で中断するのかはよくわからない。 実行トレースキャッシュはこのトレースをキャッシュしたもの であり、各トレースは $3\mu$ OP(公開特許では $6\mu$ OP)からなるトレースラインから構成されている。実行コアには現在のトレースの中からトレースラインの内容を順次実行コアに送る。

実行トレースキャッシュには TBTB(Trace Branch Target Buffer)と呼ばれる独立した分岐予測機構がつながり、実行コアに与えるトレースラインごとに分岐予測を行い、トレースラインの供給を継続するか中断するかを決定する。この分岐予測は、トレース形成時の分岐予測とは独立していて、二つの予測が一致するときのみ、トレースラインの供給を継続する。二つの予測が異なる場合は、キャッシュされているトレースに新たな分岐先があるか否かを探し、トレースキャッシュ内にあれば(要はトレースキャッシュにヒットすれば)、該当するトレースラインを遅延なしで実行コアに供給する。

実行コアから見れば、分岐予測が非常に正確に行われており、 正しい経路の命令が供給されているように見える。新たな分岐 先が実行トレースキャッシュになければ(トレースキャッシュミ ス)、トレース単位で不要なものと入れ替えが行われる。命令 がループになっている場合は同じトレースに何度もヒットする と考えられる。

#### 〔図 16〕Pentium4のトレースキャッシュの構成



だいたいこのような感じであるが、以上は公開特許からの筆者の想像なので、現実の実装と異なっていてもご容赦願いたい。

1トレースラインに 3 μOP が含まれるということは、12,000 命令を格納するというトレースキャッシュは 4,000 ラインから構成されることになる。このトレースラインをいくつか寄せ集めたものがトレースである。なお、トレースキャッシュの容量は、μOP が 12,000 命令ということであるから、x86 命令に変換すれば x60 に x

ところで、実行トレースキャッシュの発想は、TransmetaのVLIWプロセッサであるCrusoeのトレースキャッシュとよく似ている。命令を実行するコアはスーパースカラとVLIWという違いがあるものの、x86命令を実行コアが都合のいい別の形態にプリデコードしてキャッシュする。プリデコード時に分岐命令の挙動を予測し、プログラムの順序ではなく、実行する順序に並び替えてキャッシュするところもそっくりである。この並び替え操作をPentium4はハードウェアで実現するが、CrusoeはCMS(Code Morphing Software)で実現する。

#### ● アウトオブオーダ実行コア

命令をアウトオブオーダに実行するコアの機能は並列性を可能にする主要な要素である。この機能は、一つの $\mu$ OPがデータや関連する資源を待つ間に待ち合わせが必要なら、プログラムの順序では後に現われる他の $\mu$ OPを先行して処理させるように、命令の並び替えを可能にする。

プロセッサは  $\mu$  OP の流れをスムーズにするためのいくつかのバッファを備えている。これは、プロセッサのパイプラインの 1 か所が遅延しても、並行に実行している他の操作や(コアでの効果)、先だってバッファにキューイングされている  $\mu$  OP の実行(フロントエンドでの効果)によって、その遅延が埋め合わされることを意味している。

実行コアは並行な実行が可能なように設計されている。四つの発行ポートを通じて、1クロックに最大六つの $\mu$ OPをディスパッチ可能である。発行ポートを**図17**に示す。1クロックに6命令の $\mu$ OPの発行することは、トレースキャッシュやリタイアユニットの処理能力を超えていることに注意。これにより、ピークの処理能力を $3\mu$ OPより大きくし、異なる発行ポートへの $\mu$ OPの発行に柔軟性を持たせることでより高い発行の割合





# スーパースカラの実際

を実現している.

ほとんどの実行ユニットは各サイクルで新しい $\mu$ OPの実行を開始できる。このため、同時に複数の命令が、それぞれのパイプラインで処理状態になる。算術論理演算ユニット(ALUO/ALU1)を用いる多くの命令は1クロックに2命令を開始できる(倍速で動作する)。また、浮動小数点演算命令の多くは2クロックに1命令の割合で開始できる。 $\mu$ OPは、その入力データの用意ができて資源が利用可能になれば直ちに、アウトオブオーダに、実行を開始できる。

#### • リタイア

リタイア部は、実行された  $\mu$  OP の結果を実行コアから受け取り、その結果を本来のプログラム順序にしたがって、アーキテクチャ上の状態を正常に更新する。意味的に正しい実行のために、IA-32 命令の結果は、リタイアする前に、本来のプログラムの順序でコミットされなければならない。例外は命令がリタイアするときに発生する。例外は投機的には発生せず、正しい順序で発生し、プロセッサは例外処理後に正しい位置から再開される。一つの $\mu$  OP がコンプリートし、結果をデスティネーションにライトするとリタイアである。1クロックに最大三つの $\mu$  OP をリタイアできる。

リオーダバッファ (ROB) は、コンプリートした μOP を格納し、アーキテクチャ上の状態をインオーダに更新し、例外の順序を管理するユニットである。リタイア部は、分岐を追跡し、分岐先の情報を分岐ターゲットバッファ (BTB) に送り、分岐の履歴を更新する。



# Pentium-M

#### • x86 最新アーキテクチャ

Pentium-M (Banias) に関する情報はほとんど公開されていないが、2003 年 5 月 21 日発行の Intel Technology Journal の Vol.7 Issue 2 の 3 番目の記事に Pentium-M のマイクロアーキテクチャの解説がある。これを読んでも、マイクロアーキテクチャに不明な点は多い(パイプラインなど)が、 Advanced Branch Prediction (進んだ分岐予測)、  $\mu$ OP フュージョン、 Dedicated Stack Engine (専用スタックエンジン)についての解説がある。これらについて簡単に解説しておく.

#### · Advanced Branch Prediction

Pentium-Mのマイクロアーキテクチャは Pentium IIIに基づいているというのが定説だが、分岐予測に関しては Pentium4の技術を採用しているらしい。特殊なプログラムの流れを追っていくため、IP(Instruction Pointer = Program Counter)に基づいて分岐先の成立/不成立を予測する通常の分岐予測機構のほかに、ループ検出器(Loop Detector)と間接分岐予測器(Indirect Branch Predictor)を備える。

ループ検出器は、ループ動作を検出して、その分岐先を予測する、ループは一定の回数同じ方向に分岐し、1回だけ逆方向

#### 〔図 18〕Pentium-M のループ検出の論理 -



〔図 19〕Pentium-M の間接分岐予測器の論理



に分岐する。このため、ループ回数が判明していればループ操作を完全に予測できる(**図 18**)。ループが検出されると分岐予測機構の中に1組のカウンタを割り当てて回数を計数していくが、ループ回数をどのように決定するのかは明らかにされていない。

間接分岐予測器は、プログラムの流れによってデータ依存のある間接分岐を解消する。間接分岐は、オブジェクト指向コード (C++ v Java)で多用されるが、その分岐予測が誤ると分岐予測性能の低下につながる。

ほとんどの間接分岐は、実行時には、同一の分岐先に分岐する傾向がある。しかし、Java のバイトコードのインタプリタや C++の CASE 文は、データに依存して複数の分岐先をもつ。

間接分岐器は、IP で参照する分岐ターゲットキャッシュと、大域履歴 (Global History) でインデクスする分岐ターゲットキャッシュをもつ。IP での予測が成功した場合はその分岐先を使用し、IP での予測が外れた場合は大域履歴の分岐先を使用する (**図 19**).

大域履歴は、IPに基づいた予測の付随物であり、IPでの予測が外れると大域履歴に登録する。つまり、過去何回かの間接分岐の分岐先を記憶しておき、もっとも確率の高い分岐先を選択する。

Interface Oct. 2003 97

Pentium-M の分岐予測は前の世代の設計 (Pentium II アーキテクチャ)よりも、予測を外す確率が20%低下しており、実際の性能は7%向上するとしている。この向上率の約30%はループ検出器と間接分岐予測器の組み合わせが寄与している。

#### μ OP フュージョン

x86プロセッサでは、IA-32の命令(マクロ命令)をμOPと呼

# 

〔図 20〕 Pentium-M の µOP フュージョンの領域 -

#### 〔図 21〕 Pentium-M の融合されたストアの流れ・



#### 〔図 22〕Pentium-M の融合されたリードモディファイの流れ -



ばれる RISC 命令に変換して、RISC エンジンで実行することがなかば常識である。しかし、一つのマクロ命令は複数の  $\mu$  OP に分解されるので、リネームやリタイアのバンド幅やリオーダバッファやリザベーションステーションの容量といったハードウェア資源の不足をまねく。これが性能低下に結びつく。それを解消するための手段が  $\mu$  OP フュージョンである。

基本アイデアは複雑な操作(3個以上のオペランドが必要な操作)を行うマクロ命令も一つの μOP としてデコードして、割り当て、リネーム、リオーダバッファやリザベーションステーションへの登録を行う。これがフュージョン(融合)ということらしい、融合というよりは、分解しないといったほうが正確である。

従来の  $\mu$  OP は 2 個のオペランドしかもてなかったので、3 個以上のオペランドが必要なマクロ命令は 2 個以上の  $\mu$  OP に分解していた。融合された  $\mu$  OP をサポートするために、Pentium-Mでは、リザベーションステーションの各エントリは最大 3 個のソースオペランドを収容できるようになった。また、命令デコーダも、マクロ命令と  $\mu$  OP の対応が 1 対 1 になるので、複雑デコーダだけでなく、単純デコーダだけですべての命令デコードが可能になるという。

リザベーションステーションに格納された  $\mu$  OP 命令は,実行ユニットへのディスパッチ時に,本来の 2 オペランドの複数の  $\mu$  OP に変換される.そして,分解された従来と 互換の  $\mu$  OP が実行ユニットでアウトオブオーダに実行され,一つの融合された  $\mu$  OP を構成する複数の  $\mu$  OP (従来形式) がすべて完了すると,その融合された  $\mu$  OP がリタイアする (図 19).

上述の論文では、 $\mu$ OPフュージョンの例として、ストア操作とリードモディファイ (load-and-op、リードした値と演算する)操作が挙げられている。これらのマクロ命令は、ディスパッチ時に2個の $\mu$ OP(従来形式)に変換される。ストア操作は「ストアアドレス操作」と「ストアデータ操作」に分解される。リードモディファイ操作は「ロード操作」と「演算操作」に分解される。また、本来、マクロ命令が2個の $\mu$ OPに分解される場合は稀であるとされている。

融合されたストア命令を形成する2個の $\mu$ OP は並列に発行できる。メモリへの実際のライトはストア命令がリタイアされたときに行われるので、それまでにストアデータバッファに対してアドレスとデータが供給されていればいい。ストアアドレス操作はアドレス生成ユニットへディスパッチされ、そのソースオペランド(ベースやインデクスレジスタ)が用意されたときに実行される。ストアデータ操作はストアデータバッファユニットにディスパッチされ、そのソースオペランド(ストアするデータ)が用意されたときに実行される。これらの実行は独立に行われ、融合されたストア命令のリタイアは両方の操作が完了した時に発生する(図20)

融合されたリードモディファイ命令を形成する2個のμOPは、アドレス依存があるため、逐次的に適切な実行ユニットに発行される。ロード操作のディスパッチは、そのソースオペランド



# スーパースカラの宝牌

(ベースやインデクスレジスタ)が用意できたときに実行される. (図 23) Pentium-M の専用スタックエンジンの論理 演算操作は、ロードが完了し、もう一方のオペランドの用意が できたときに実行される、融合されたリードモディファイ命令 のリタイアは、両方の操作が完了したときに発生する(図21).

上述の論文にはとくに明記されていないが、x86の特徴であ るリードモディファイライト命令はリードモディファイ操作と ストア操作の組み合わせなので、1個の融合されたμOPとして リザベーションステーションに登録され、ディスパッチ時に、 3個または4個のμOPに分解されるのであろう(メモリのアド レスが同一なのでアドレス計算が1回省略できる).

インテルによると、融合された uOP 構造はアウトオブオー ダロジックで処理される μOP の数を 10 %以上減少させること (図 24) Hammer が判明している. μOP の数が減少するため, 発行, リネーム, リタイアのスループットが増加し、結果的に性能を増加させる. とくに、命令デコードに監視/複雑デコーダが不要になるため、 プロセッサのデコード、割り当て、リタイアのバンド幅を3倍 に拡大するとしている.

μOP フュージョンによる性能向上は、典型的には、整数コー ドでは5%であり、浮動小数点コードでは9%である、ストア 操作の融合は、とくに整数コードの性能向上に寄与する. 浮動 小数点コードの性能向上は、ストア操作とリードモディファイ 操作(図22)の両方の形式が寄与するという.

#### Dedicated Stack Engine

IA32 は CISC 命令であり、 PUSH、 POP、 CALL、 RET などス タック操作を多用する. これらの命令はスタックポインタ(ESP) の値をアドレスとして使用する. このため、データの移動とは 別にスタック計算用のμOPが余分に発行され、μOPの命令数 が増加する。また、ESPが更新されないと次の PUSH や POP が 実行できないという依存性も発生する. 従来は複数のスタック 操作命令を同時にデコードしようとしても、ESPの値が確定し ていないため、それが不可能だった、Pentium-Mでは、命令デ コーダの近くに専用回路を設けることで, 非常に効率的に, ESP のこれらの副作用を扱えるようになっている.

その基本原理は、プログラマに見える ESP(ESPP)は、アウ トオブオーダ実行エンジンの中にある ESP レジスタ (ESPO) に 差分(ESPD)を加えたものである。つまり、

ESPP = ESPO + ESPD

であり、ESPD は命令デコーダで管理できる。つまり、前の命令 での ESP の変化量は±4であることが多い (PUSHA, POPA は例 外)。命令デコード時に ESPD からの変化量を計算し、ESPP の 値を推定することで複数命令の同時デコードを可能にするもの である(図 23). この場合、ESPDの更新は専用の加算器で行う.

この操作は、ESPをデスティネーションオペランドとする命 今には効果がない。この場合は、ESPPを計算する uOP(ESPO と ESPD を加算) を余分に追加して ESPO が更新されるのを待 つ. その後は ESPD を o とみなしてデコードしてよい. もとも と ESPD が o の場合は、このような同期化処理は不要である。



の構成



また、Pentium-M は投機実行を行うので、分岐予測が外れた 場合は ESPO や ESPD の値をある時点まで巻き戻さなければな らない、ESPO はアウトオブオーダ実行エンジンのレジスタの 一部なので自動的に回復される。ESPDに関しては、その値を 保持するテーブルを用意して対応する.

Dedicated Stack Engine を搭載することで、ESPを同期化す  $3\mu OP$ を挿入したとしても、 $\mu OP$ の数が5%減少するという。 それよりも、命令デコードのバンド幅が向上したことが性能に 大きく寄与するらしい。また、消費電力も5%程度の削減にな るという.

# Hammer のパイプライン

#### • Quanti Speed アーキテクチャを採用

Athlon は、AMD が P6 (Pentium II ) 対抗として開発した 32 ビット MPU である、そして、Hammer は Athlon の後継にあ たる 64 ビット MPU である. マイクロアーキテクチャの基本構 造は、Hammer と Athlon でよく似ている。 しかし Hammer で は、I/O やマルチプロセッサ接続を行う HyperTransport を 3 ポートと North Bridge (DDR SDRAM コントローラ、APIC な ど)を内蔵している点が異なる.

図 24 に Hammer の構成を示す。 キャッシュと CPU コアが分 離され、いろいろな構成(高級版や廉価版など)に対応できるよ うになっている。Hammer アーキテクチャを採用する MPU と

Interface Oct. 2003 99

〔図 25〕 Hammer の ブロック図



しては、Opteron ブランドの **SledgeHammer** (サーバ、EWS 向け) と Athlon64 ブランドの **CrawHammer** (PC 向け) が発表されている。これらにどのような相違があるのかは不明である。しかし、L2 キャッシュの容量、DRAM コントローラや Hyper Transport のバス幅/ポート数の違いによって区別されると予想されている。

Hammer のブロック図を**図 25** に示す. この図で L1 キャッシュ, L2 キャッシュ, TLB, 分岐予測機構, North Bridge 以外の部分がプロセッサコアである. なお, APIC (Advanced Priority Interrupt Controller) とシステム要求キュー (SRQ: System Request Queue) は二つの CPUを扱える構成になっている. 当初の発表で Hammer はシングル CPU コアとなっていたが, 実際には 2, 4, 8CPUの CMP (Chip Multi Processor) 構成が可能である.

ところで、Hammer は、Athlon と同様に、QuantiSpeed アーキテクチャを採用する. つまり、

- •9 命令同時発行,スーパースカラ,パイプライン化されたマイクロアーキテクチャ
- ●複数の並列 x86 命令デコーダ
- ●パイプライン化された三つのスーパースカラ浮動小数点ユニット(FPU)
- •パイプライン化された三つのスーパースカラ整数演算ユニット(ALU)
- ・パイプライン化された三つのスーパースカラアドレス生成ユニット(AGU)
- 72 エントリの命令制御ユニット
- ●ハードウェアによるデータのプリフェッチ(Hammer のブロッ

ク図にはない)

- ●排他的、投機的に入れ替えを行う TLB
- 動的な分岐予測

により、IPC を向上させている。同じ QuantiSpeed アーキテクチャを採用する Athlon と、基本的には変わらない。しかし、整数演算系のスケジューラ(リザベーションステーション)が 18 エントリから 24 エントリに増加している。 Athlon のスケジューラの実態は、 $3\times6$  エントリに分割されているという。 その意味で、Hammer では ALU と AGU のペアごとに 2 エントリの増加になっている。

しかし、Athlon と Hammer の大きな違いは、命令のフェッチ系にある。つまり、分岐予測機能の高度化とマルチプロセッサで高性能をねらっている(動作周波数の向上は当然)。命令デコーダ自体に大きな変更はないようである。

• 強化された命令デコーダ

QuantiSpeed アーキテクチャは命令デコーダが強化されているのが特徴の一つである。正確にいえば、ドキュメントによっては、命令デコーダは QuantiSpeed の特徴には入っていない。しかし、Athlonで強化された命令デコーダは、Hammer でもそのまま受け継がれているようなので、ここでは QuantiSpeed に含めておく。

インテルの P6 (Pentium III / Pentium III) アーキテクチャまでは、デコーダは対称的ではなかった (Net Burst では命令トレースキャッシュを使用するので事情が異なる). しかし、Quanti Speed では対称的なデコーダを備える. これは、命令をデコードする効率に係わる.

P6とQuantiSpeedは、どちらも、複数の命令を一度にデコー

Interface Oct. 2003

# スーパースカラの実際

〔図 26〕 Hammer の 分岐予測



ドするために、複数の命令デコーダを用意している。P6では二つの単純デコーダと一つの複雑デコーダで役割を分担している。一方、QuantiSpeedでは、同じ機能の命令デコーダ(ある程度複雑な命令をデコードできる)が3組対称に並べている。

命令の分類としては、単純な命令、ある程度複雑な命令、非常に複雑な命令に分類できる。命令の整列がうまくいっており、それらが単純な命令であれば、1クロックで3命令をデコードできるのは同等である。しかし、複雑な命令が混じる場合は事情が異なる。

P6では、単純デコーダで処理できない命令は複雑デコーダに渡される。複雑デコーダでもデコードできない命令はマイクロコード命令シーケンサでデコードされる。命令デコードはインオーダに行われるので、複雑な命令が混じる場合は、1クロック間で、1命令あるいは2命令ずつしかデコードできず、スループットが低下する。それゆえ、P6では、レジスターレジスタ間演算といった単純な命令を使用しないと性能が出ないといわれている。それに対し Athlonでは、1世代前の Pentium や K6アーキテクチャに最適化したコードでも、それなりの性能が出るとされている。

QuantiSpeedでは、単純な命令とある程度複雑な命令を処理する直接径路(Direct Path)と複雑な命令を処理するベクタ径路(Vector Path)に分かれて並列にデコードを行う。これは、AthlonではSCANステージ、Hammerではピックステージで選択される。

直接径路では、x86 命令をデコードして、1クロック間に、三 つの MacroOP を出力する。この MacroOP は、後のアーリデ コードあるいはパックステージで結合され、RISC ライクな  $\mu$ OP に変換される. ベクタ径路ではマイクロコード ROM がアクセスされ、1クロック間に、最大3命令の MacroOP を出力する. これらが、専用デコーダで $\mu$ OP に変換される.

上述のように、QuantiSpeed の命令デコーダでは、見かけ上、直接径路とベクタ径路の違いをなくしている。これは、複雑な命令が混じっていても、命令デコードのスループットが低下しないことを意味する。

#### • 分岐予測

カリキュレータ (BTAC)

投機実行が当たり前になっている最近の MPUでは、性能向上のために、分岐予測機能はとくに重要である。 Athlon と Hammer の分岐予測機構は、Athlon に分岐ターゲットアドレス計算器がない点を除けば、分岐予測テーブルのエントリ数の違いはあるものの、基本的には同じである。ここでは、Hammer の分岐予測について説明する。

Hammer の分岐予測は,**図 26** に示すように,3 種類のテーブル(1) ル(キャッシュ) とターゲットアドレス計算器から構成される.

- 大域履歴カウンタ (Global History Counter) 分岐の方向 (分岐/不分岐)を記憶。
   2ビット×8Kエントリ (Athlon の 4 倍)
- ●分岐ターゲットアドレス配列(Branch Target Address Array)

2Kエントリ (Athlon と同じ?)

- リターンアドレススタック (RAS: Return Address Stack)12 エントリ (Athlon と同じ)
- ●分岐ターゲットアドレス計算器 (BTAC : Branch Target Address Calculator)

1個 (Athlon にはない)

〔図 27〕 Hammer のパイプライン

| ステージ                                                                 | 分 類                | 詳細                                                                                                           | 説明                                                                                                                                                                                               |
|----------------------------------------------------------------------|--------------------|--------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1<br>2<br>3<br>4<br>5<br>6<br>7                                      | フェッチ               | フェッチ1<br>フェッチ2<br>ピック<br>デコード1<br>デコード2<br>パック<br>パック/デコード                                                   | <ul><li>命令をL1キャッシュよりフェッチ</li><li>命令の整列</li><li>x86命令をデコード</li><li>中間コードに変換?</li><li>個々の命令をパック</li><li>命令をµOPに変換</li></ul>                                                                        |
| 8<br>9<br>10<br>11<br>12                                             | 実行                 | ディスパッチ<br>スケジュール<br>AGU/ALU<br>データキャッシュ 1<br>データキャッシュ 2                                                      | μ O P をスケジューラ発行<br>スケジューラに格納<br>命令実行/アドレス生成<br>データキャッシュアクセス                                                                                                                                      |
| 13<br>14<br>15<br>16<br>17<br>18<br>19                               | <b>L2</b><br>キャッシュ | L2リクエスト<br>L2タグへのアドレス<br>L2タグ<br>L2タグ, L2データ<br>L2データ<br>L2データ<br>エ2からのデータ<br>データキャッシュへのMUX<br>L1ヘライト, データ供給 | Address to North Bridge Clock Boundary SRQ Load GART/AddrMap CAM GART/AddrMap RAM Cross Bar Coherence/Order Check                                                                                |
| 21<br>22<br>23<br>24<br>25<br>26<br>27<br>28<br>29<br>30<br>31<br>32 | DRAM               |                                                                                                              | MCT Schedule DRAM Cmd Q Load DRAM Page Status Check DRAM Cmd Q Schedule Request to DRAM Pins DRAM Access Pins to MCT Through North Bridge Clock Boundary Across CPU ECC and MUX Write Data Cache |

フェッチした命令が分岐命令であるか否かは、L1キャッシュ 格納時にプリデコードされて格納されている分岐選択情報 (Branch Selector)によって判別される。そして、分岐命令を フェッチすると、大域履歴カウンタ(GHC)と分岐ターゲットア ドレス配列(BTAA)を参照し、前者から分岐方向を、後者から 分岐先アドレスを得る。分岐先アドレスが判明すれば、そこか ら投機的に実行を始める。

なお、分岐選択情報は L2 キャッシュにも存在する。これは L1 キャッシュから L2 キャッシュへ追い出す場合に、L1 キャッシュの情報を ECC 領域に書き込むようだ。さすがに、L2 キャッシュへのリフィル時にプリデコードを行うのは回路が複雑になり過ぎる。

ただ、命令キャッシュでL1キャッシュからL2キャッシュへの追い出しが存在するかという疑問もあるが、2001年のMicroprocessor Forumでは、そのように解説されていたらしい。図 26 においても、Evicted Data(立ち退かされたデータ)という表現がある。ということは、L1キャッシュとL2キャッシュは排他的(Exclusive Cahce)になっていて、最新の情報をL1キャッシュに置くように、L1キャッシュとL2キャッシュで適宜エントリの置き換えが行われていることになる。これは、L1キャッシュのほうがL2キャッシュより短時間でアクセスできる

ためであろう。たしかに、Hammerのブロック図 (図 25) では L1 命令キャッシュと L2 キャッシュの径路 は双方向になっている。このあたりは AMD からの詳細な資料を待ちたい。

GHCはBTAAより多くのエントリを持つので、分岐命令の処理に、次のような場合が考えられる。

- GHC にヒット, BTAA にヒット 1クロックのペナルティ
- ●GHC にヒット、BTAA にミス→BTAC を利用して 分岐アドレスを計算

4クロックのペナルティ(BTACの時間は2クロック)

●GHC にミス→分岐するか否かはパイプラインの実行 ステージまで不明

11 クロックのペナルティ (実行ステージまでの時間は g クロック)

ここでいうペナルティとは、逐次的な命令フェッチと比べて、分岐先をフェッチするまでに要するむだ時間のことである。これに1クロック加算したものが分岐命令の実行クロックといえる。HammerではBTACを追加したことにより、Athlonに比べて、GHCミス時のペナルティを大幅に減少させている。

パイプライン

Hammer のパイプラインを**図 27** に示す. AMD の説明によると、Hammer のパイプラインは、整数演算が12 ステージ、浮動小数点演算が17 ステージという.

図 27 は整数パイプラインで、浮動小数点パイプラインは明らかにされていない。Hammerでは、Athlonでは1ステージだったL1キャッシュアクセスが、2ステージに分割されているのが特徴的である。デコードも2ステージかけて余裕をもたせている。明らかに、高い動作周波数をねらった設計である。それなのに、2ステージしか違わないというのは、1クロックに処理する論理を見直したためであろう。

#### まとめ

以上, 実際のプロセッサのスーパースカラ構造について解説してきた.

たとえば、SH-4のパイプラインに関しては資料がほとんど存在しない。しかし、x86系に関しては資料は豊富である。そういう意味では、SH-4は筆者の想像、x86系は既存の資料の受け売りが多いことは否定しない。多少の誤りはご容赦願いたい。

文章の量はかなり多くなったが、内容的にはそれほど難しいことはいっていない。最近のMPUはアウトオブオーダなスーパースカラが常識のようになってきているので、スーパースカラの基礎をおさえておくことは必須であろう。

なかもり・あきら フリーライタ

#### はじめに

「消費電力=性能」と考えられていたのは昔の話である。現在では EWS でさえも低消費電力を考慮している。つまり、低消費電力で高性能という要求が強い。

低消費電力の利点は、システム構成の簡略化にある。電力が大きいと熱を発生する。すると熱により装置が誤動作するのを防ぐため、冷却機構の考慮が必要になる。あるいは電源の問題もある。消費電力が大きいと、それに見合う電源供給が必要になるので、強力な電源装置が必要になる。当然、システムの規模も大きく価格も高くなる。

これは PC の世界でも同様である。マザーボードから冷却ファンを取り除きたいというのが、第 1 の目的である。システム簡略化の次の目的は、携帯性の向上である。ノート PC では電池寿命の長さが肝である。そのためには、できるだけ消費電力が少ないことが必須となる。このためには、MPU だけでなく、周辺機器も低消費電力化する必要がある。MPU はその第一歩である。

これらの要求を満たすため、1999年頃から低消費電力モードの採用がPC用MPUの売りの一つになってきている。たとえば、CrusoeのLongRun、AMDのPowerNow!やインテルのモバイルPentium IIIのSpeedStep などである。AMDの発表ではSpeedStep は 7W 程度、PowerNow!は 3W 程度の電力が節約できるという (2000年当時)。これでもけっこう画期的な値で、電力は従来の1/10以下になり、それにより電池寿命が10~20% (SpeedStep の場合)、あるいは30% (PowerNow!の場合)長くなる。しかし、性能低下も著しく、低消費電力モードは無効化して使用する可能性が高いというのが、もっぱらの予測だった。

現在,低消費電力技術をとくに必要としているのは携帯電話や PDA の分野である。この分野では電池駆動が常識であり, $1 \sim 15$  日程度の電池寿命を実現するために, $10mW \sim 200mW$  の超低消費電力が要求される。この要求を満たすのは,もはや PC 用の MPU では不可能であり,ARM,MIPS,PowerPC といった新しいアーキテクチャをもつ MPU の存在する意義がある。

ここでは、低消費電力を実現するための基本原理について説明する.

#### ● 低消費電力の基本原理

従来、いろいろな低消費電力技術が考案されてきているが、その 基本原理はただ二つである. 駆動電圧を下げることと動作周波数を 下げることである.

電力は駆動電圧と消費電流の積で計算される. つまり感覚的には, (電力)=(電圧)×(電流)

= (電圧) × (電圧) / (抵抗値) ......オームの法則であり、電圧の2乗に比例する、電力を下げるために駆動電圧を下げることは有効である、電圧が1/2になれば電力は1/4になる.

半導体の製造技術の向上につれて微細化が進み,低電力によるトランジスタ駆動が可能になってきている. たとえば,製造プロセス

が  $0.25 \,\mu$ m で 2.5V,  $0.18 \,\mu$ m で 1.8V,  $0.13 \,\mu$ m で 1.5V,  $0.10 \,\mu$ m で 1.0V である。 つまり,製造プロセスを進化させることで,自然と電力も下がっていく。

また、電力は動作クロックの周波数(動作周波数)に比例することがわかっている。最近の MPUを構成するトランジスタは CMOS 回路である。 CMOS 回路は、スイッチング時の状態遷移時にのみ電流が流れる。 つまり、出力が変化するときのみ電流が流れる(図A). これは状態をできるだけ変更しなければ電力が低減できることを意味する.

ところで、電気信号は動作クロックに同期して切り替わるので、動作周波数が高いほど電流値が大きくなる。つまり、動作周波数を下げることで、動作電流を下げることができ、結果として電力を下げることができる。

以上をまとめていうと、CMOS 回路では一般に、

(電力)=  $\sum$  {(寄生容量)  $\times$  (電圧)  $\times$  (電圧)  $\times$  (周波数)} という関係が成立することが知られている。これを示す  $CV^{\circ}f$  という表現はよく使われるので覚えておこう。

LongRun, SpeedStep, PowerNow!はどれも駆動電圧と動作周波数を動的に制御する技術であり、どのようなタイミングで制御するのかが、実現方法のキーポイントとなっている.

たとえば、CrusoeのLongRunは、電圧と周波数の組み合わせを 複数用意し、MPUの負荷によって、それらを動的に変更するように なっている。負荷が軽い場合、まず、周波数を低下させ、その後、電 圧を低下させる。ここでいちばん工夫を要するのが負荷の状態を判 断する方法である。これは、アプリケーションプログラムが発行す るコードモーフィング要求の頻度を監視することで実現していると 思われる。しかし、その詳細な手法は公開されていない。

#### 〔図 A〕 CMOS の NOT 回路の動作



ここで、消費電力に関して興味深い報告を一つ。一般にMPUの動作周波数を上げると消費電力も増大する。しかし、実際のシステムにおいては必ずしも正しくない。動作周波数が速いと周辺回路が動作する時間が短くなるため、結果として消費電力が少なくなる場合もある。ただし、これは周辺機器が同時動作している通常動作時の消費電力の話である。長い期間の電池寿命に効いてくるのは、主として、スタンバイやサスペンドなど待機時の消費電力である。

#### 動作電圧の動的制御

この方法は単純である。供給する電源電圧を上げ下げするだけである。当然、レギュレータなどの外部回路の補助が必要である。また、MPUが負荷状況を外部に通知する手段が必要である。これが、電圧を上げ下げするタイミングとなる。

インテルのモバイル Pentium IIIで採用された SpeedStep は複雑な制御をしない。AC電源をはずしたときのみ,自動的にクロックと電圧を2段階に制御する。650 MHz または600 MHz 時は1.6 V で動作し,500 MHz 時は1.35 V で動作することで,消費電力を削減する。2001 年7月に公開された Enhanced SpeedStep では,ソフトウェアで明示的にモード切り替えを行うことも可能である。これはモバイル Pentium4-M で採用された。

トランスメタの Crusoe (TM5400) では、電力管理用に 5 本の制御信号があり、32 段階の電力制御が可能である。これは、主として、電圧制御用である。電圧は  $1.1V\sim 1.6V$  の間で 0.05V 刻みに変化できる。一方、動作周波数は自動的に変動する。 $200MHz\sim 700MHz$  の間を 33MHz 刻みで変化する。MPU の負荷の変動は 0.5 µs ごとに検出可能であるという。電圧を変更するのに要する時間は 20 µs 以内で、アプリケーションの実行に影響を与えることはないといわれている。

AMDの K-6+, K6-III+, モバイル Athlon4, モバイル Duron など に採用されている PowerNow!も同様の技術である。そのオートマチックモードでは、MPUの負荷を自動的に判断して電力制御を行う。その具体的な手法に関しては公表されていない。動作電圧は、2.0Vから 1.4V の間を数段階に分けて変更する。動作周波数の変更は、バスクロック (FSB) に対する倍率を変更することで実現する。PowerNow!は、LongRun と比較すると、動作周波数、動作電圧ともに変化の刻み幅が大きい。この意味で、PowerNow!は、SpeedStepと LongRun の中間的な技術といえる。

従来は、電圧の切り替えは 2 段階で十分としていたインテルも、Pentium-M (Banias) では Geyserville-III (ガイザービルIII) という技術で多段階の電圧切り替えをサポートするようになった。 0.85V 時では 600MHz 動作, 1.35V 時は 1.6GHz 動作が可能である。 この間で電圧と動作周波数の組み合わせを指定できる。 現段階では 1GHz という中間値が示唆されている。 また,SpeedStep (Geyserville-II) とは異なり, Geyserville-IIIでは CPU 自体が負荷状況をモニタして,自動的に周波数と電圧の組を切り替えるようだ。 つまり,ソフトウェアの変更をしなくても,自動的に省電力制御を行うことができる。

結局, LongRun, PowerNow!, Geyserville は同じようなシステム 仕様に近づきつつある.

#### 動作クロックの制御

最近は、ほとんどすべての MPU が PLL (Phase Locked Loop)を内蔵し、PLL からクロックが供給される。PLL は、原発振 (FSB クロックなど)を逓倍することで、安定した高い動作クロックを生成する。動作クロックの制御は、PLL の逓倍率を変更すること、または、PLL の出力を分周することで実現できる。しかし、この手法はモト

ローラ社が特許を取っており、特許侵害を避けるため他社製 MPUでの実現方法は意図的に不明確になっていることが多い。

#### (1) 静的制御

これは、携帯電話の待ち受け時など、MPUが高速で動作する必要がないことが分かっている場合、ソフトウェアによって明示的に動作クロックを分周して低下させる方法である。専用命令の実行、あるいは、レジスタ設定によってクロックの分周比を変更する。

#### (2) 動的制御

これは、ハードウェアによって MPU の負荷状況を監視し、動作クロックを変動させる方法である。トランスメタの LongRun や AMD の PowerNow!で実現されている。

MPU内のハードウェアによる監視を行わなくても、専用の入力端子を用意して実現する方法も考えられる。もっとも、これは監視回路をMPU外部に追い出したのと同じことであるが。

#### クロック供給の制御

通常、MPU はいろいろなユニットの集合体で実現されている。そこで、MPU の動作に必要なユニットにのみクロックを供給する方法がある。

#### (1) 静的制御

これは、低電力モードとして専用命令で提供されることが多い。低電力モードに移ると MPU は待機状態に入る。そして、割り込みが入ると待機状態から抜け出す。低電力モードには、クロックを供給する程度に応じて、スタンバイ、ウェイト、サスペンド、ハイバーネートなどと固有の名称が付けられている。たとえば、NEC の  $V_R$  4131 は表 A(a)に示す五つの電力モードをもっている。これらの動作モードには、STANDBY、SUSPEND、HIBERNATE といった命令を実行することで移行する。また、表 A(b)に示すように、ARM 社のARM11でも同様の電力管理を実現している。

また、MPUによってはクロック制御ユニットをもつものもある.これは、各ユニットへのクロック供給を、ソフトウェアによって明示的に制御しようとするものである。MPUに備わっている機能ユニットでも、アブリケーションによっては、まったく使用しないものがある。これらのユニットにクロックを供給するのはむだなので、明示的に動作を止めようという考え方である。日立の携帯電話向けSH-Mobile (SH3-DSPをコアとする省電力プロセッサ群)では、自動的に(?)、各周辺ユニットに供給するクロックを停止できるようだ。

#### (2) 局所的な動的制御(ゲーテッドクロック)

低消費電力に関しては、電圧や周波数だけでなく、MPUのシステム設計の段階で、フリップフロップ単位に低電力のしくみをもたせる方法もある。これは、マスククロックまたはゲーテッドクロック(あるいはクロックゲーティング)と呼ばれる手法で、必要な場合にしかフリップフロップにクロックを供給しない技術である。MPU内部では、クロックを0から1へ、1から0へと変化させることだけで電力を消費する。このクロックを、CMOS回路の状態遷移に必要な最小限の期間しか動作させないという技術である。

具体的には、多ビットのレジスタやバッファに対し、選択信号(リード信号やライト信号)が出力されているときのみ、クロックを供給する(図B).1ビット程度のレジスタ(フリップフロップ)では、クロックマスク回路の規模のほうが大きくなるので、意味がない.

#### (3) 大局的な動的制御(ゲーテッド CTS)

MPUの内部回路にクロックを供給する場合、場所によってクロック間の遅延がないようにすることは非常に重要である。そのために、



#### 〔表 A〕電力モード -

| モード     | PLL | リアル<br>タイム<br>クロック | 割り込み<br>制御<br>ユニット | バス制御<br>ユニット | その他   | CPU<br>コア |
|---------|-----|--------------------|--------------------|--------------|-------|-----------|
| フルスピード  | ON  | ON                 | ON                 | ON           | 選択可能* | ON        |
| スタンバイ   | ON  | ON                 | ON                 | ON           | 選択可能* | OFF       |
| サスペンド   | ON  | ON                 | ON                 | OFF          | OFF   | OFF       |
| EXサスペンド | OFF | ON                 | ON                 | OFF          | OFF   | OFF       |
| ハイバネート  | OFF | ON                 | OFF                | OFF          | OFF   | OFF       |

ON : クロックを供給する OFF : クロックを停止する

\* : CMU(クロックマスクユニット)で選択

#### (a) V<sub>R</sub>4131の電力モード

#### Run モード チード コア メモリ 電力 への復帰 クロックON クロックON アプリケー Run ション依存 電力 ON 電力 ON クロックOFF クロックOFF 割り込み リーク電流 Standby 電力 ON デバッグ要求 電力ON クロックOFF クロックOFF メモリからの ソフト Dormant リセット 雷力OFF 電力 ON リーク電流 クロックOFF クロックOFF Shutdowr ほぼゼロ リセット 電力 OFF 電力OFF

#### (**b**) ARM11 の電力モード

#### 〔図 B〕ゲーテッドクロック



類似した機能をもつ回路に対して共通のクロックツリーを設け、各クロックツリー内、異なるクロックツリー間で、その下にぶら下がるフリップフロップに見えるクロックの遅延が、様になるようにバッファ挿入を行う(図 C). これを CTS (Clock Tree Synthesis) という。

MPUが命令をデコードした時点で、その命令が駆動するクロックツリーを検出し、必要のないクロックツリーへのクロック供給を根元から止めてしまう。このようにして低消費電力を実現する方式をゲーテッド CTS という。この手法は、ある程度大域的にクロックを止めるので、通常のゲーテッドクロックよりも効果が大きい。一般的に、マスククロックとかゲーテッドクロックという場合は、このゲーテッド CTS のことを指す。

ゲーテッド CTS では、クロック供給はハードウェアによって、自動的にクロック供給が行われる。しかし、大量のクロックマスク用ゲートでの遅延を揃えるために、高機能なツールが必要である。このため、最近まで、やりたくてもできない技術だった。大体、昔はクロックラインにロジックを挿入するなど非常識なことと考えられていた。

ゲーテッド CTS が叶わなかった昔、長い間使われない回路へのクロック供給を止めるという中間解が考案された。これは、外部回路でI/O などの状態を監視し、アイドル期間がある程度続くようなら割り込みを入力して、割り込みハンドラ内でソフトウェアによる電力制御(クロックを分周したり停止したりする)を行う手法である。

#### (4) その他の技術

MPU の内部回路はすべてが最高の周波数で動作する必要はない.

#### 〔図 C〕ゲーテッド CTS



クロックドメイン(一つのクロックが管理する領域)ごとに、処理の性質に応じて最適な周波数を選択することで、消費電力を最適化できる。たとえば、バイプラインを駆動するクロックは最高周波数であることが要求されるが、周辺回路に供給するクロックはそれ程高くなくてよい。とくに、割り込みのサンプリングは、かなり遅い周波数でも実用になる。

また、究極的な方法として、使用していないユニットの電源供給を停止する方法がある。これに関しては、対象となるユニットの再起動に時間が掛かるのが欠点である。MPU内の電流逆流防止などの考慮も必要である。

#### • キャッシュの電力制御

現在のRISCプロセッサはキャッシュの存在が必須である.しかし、MPUの内部でキャッシュがもっとも電力を消費する部分である.消費電力の半分がキャッシュによるものといっても過言ではない.このため、完全低消費電力を実現するためには、ゲーテッドクロックなどで、キャッシュ以外の部分の低消費電力化を行うだけでは不十分で、キャッシュそのものの電力を削減することが重要になる.

#### (1) ブロック分割

これは、キャッシュメモリを複数のバンク(ブロック)に分割して、必要なブロックのみを活性化してアクセスする方法である。具体的には、各メモリバンクは選択信号をもち、キャッシュをアクセスす

るアドレスの一部分をデコードすることにより、活性化するバンクを選択する。キャッシュの電力制御の方法として、ごく普通に行われている。

キャッシュメモリは SRAM で構成される. SRAM は、図 D のようにメモリセルを 2次元に配置し、アドレスを行(ロウ)アドレスと列(カラム)アドレスに分割して、アクセスするメモリセルの位置をデコードする. 行選択で選ばれた複数のメモリセルが、ワード線を活性化することにより、記憶していたデータとその反転データをビット線に出力し、それをさらに列選択で選んだものをセンスアンプで増幅し、読み出す.

ブロック分割は、行選択をさらに細かく選択して行うことである. つまり、一部のワード線しか活性化しない、メモリセルはフリップ フロップに入出力用のゲートを付加したものであり、このゲートは ワード線を活性化して駆動する. 駆動するメモリセルが少ないほど 消費される電流が少ないのは明らかで、結果として低消費電力を実 現できる.

#### (2) ウェイ予測

これは、nウェイセットアソシアティブキャッシュにおいて、ヒット/ミスの判別時にすべてのウェイの内容を同時に読み出すのではなく、予測した順番でウェイを読み出す方法である。キャッシュを同時に読み出さない分、電力が少なくなる。この場合、予測を正しく行わないと、キャッシュアクセスに時間がかかってしまうが、スーパースカラ構成を採る場合は、リザベーションステーション(早い話が命令キュー)でそのロス時間は給されてしまうといわれている。

ウェイ予測に関しては、基本特許が多く出ているので、安易に採用することは難しいと思われる。しかし、堂々とウェイ予測を謳うMPUが発表されている現状を考えると、抜け道はいくらでもあるのだろう。

#### (3) キャッシュの階層化

キャッシュは、通常、L1キャッシュ、L2キャッシュ、L3キャッシュと階層化して使用される。これは、キャッシュのアクセス時間と内蔵できるキャッシュサイズとの兼ね合いで分割されていることが多い。つまり、L1キャッシュ、L2キャッシュ,L3キャッシュの順にキャッシュサイズが増加していくのが普通である。そして、L1キャッ

#### 〔図 D〕 SRAM の構成



シュは L2 キャッシュの内容の ·部を, L2 キャッシュは L3 キャッシュ の内容の ·部をキャッシングする (ビクティムキャッシュはそうなっ てないが).

このような階層構造は、消費電力を下げる効果もある。一般的に、アクセスするキャッシュのサイズが大きいほど電力を消費するので、時間的、空間的に、できるだけ少ないサイズのキャッシュへのアクセスを優先することで低消費電力化を実現できる。この方式は、特殊な形態のブロック分割といえるかもしれない。

アドレス変換に使用する TLB では、その内容をキャッシングしたマイクロ TLB を最初にアクセスすることがあるが、これも同じ発想である。

#### • トランジスタレベルの低消費電力化

この分野は筆者の専門ではないが、簡単に説明する.

トランジスタの集積度はムーアの法則にしたがって増大してきた. 1971年に登場した 4004と 最新の Pentium4 を比較すると、動作周波数は約2万倍に、トランジスタ数は約2万4000倍にまで増大した.しかし、動作電圧は低下しているが、動作周波数とトランジスタ数の増加とともに消費電力も増加している。この消費電力が MPU を発熱させる要因となっている。インテルの試算では、MPU の発熱は、2007年には核反応炉と同レベルになり、2010年を過ぎた頃にはロケットの噴射口に匹敵し、程なく太陽の表面温度に等しくなるという、その意味でも、トランジスタの低消費電力化は必須である。

#### (1) リーク電流

半導体製造プロセスの微細化が進むと、当然、トランジスタの大きさは小さくなる。トランジスタとは、シリコンの上に、シリコンと逆極性のソース領域とドレイン領域を形成し、それをゲートで繋ぐ(図 E). ゲートに電圧をかけるとソースとドレインの間に電流が流れ、これがスイッチのように働く.

しかし、微細プロセスでは、ゲート長が短くなり、トランジスタが導通し始める電圧(しきい値: $V_{th}$ )が低下して、ゲートに電圧をかけなくても漏れ電流(リーク電流)が流れてしまう。このリーク電流(オフリーク電流,または、チャネルリーク電流)のせいで、トランジスタが動いてなくても、電力を消費してしまう。また、これでは、トランジスタが ON なのか OFF なのか判別できないので、正常動作のためには、リーク電流を超える電流を流す必要がある。これによっても消費電力が増大する原因となる。

あるいは、ゲート長の縮小化にともない、ゲート酸化膜(絶縁膜) もほぼ比例して薄くする必要がある。しかし、膜厚が薄くなること

#### 〔図 E〕nMOS トランジスタ





により、トンネル効果で、絶縁膜を通して流れるリーク電流(ゲート リーク電流)が無視できなくなる。

オフリーク電流とゲートリーク電流は、消費電力を増大させる要因になる。これは、電池駆動の機器においてはとくに深刻な問題であり、リーク電流を削減するための手法がいろいろ考案されている。

リーク電流を低減させる抜本的な方法を以下に示すが、とりあえず行われるのが、微細プロセスになるほど動作電圧を下げるという方法である。トランジスタを駆動する電圧が低ければ、流れる電流も小さく、消費電力が下がるという理論である(消費電力は電圧の2乗に比例する).

#### (2) オフリーク電流対策

オフリーク電流対策としては、ソースやドレインを形成するシリコン層の厚さを薄くする方法がある。シリコン層にソースやドレインを形成すると、その影響による空乏層 (depression region)  $^{\pm}$  の広がりがシリコンの厚みに対して小さく、空乏化されてないシリコンがゲートの下に残る。このシリコンがフローティングボディ(どこにも接続されていない電極)となり、その電位がトランジスタ特性に影響を与える。シリコン層を薄くしてゲートの下のシリコンを完全に空乏化するとフローティングボディがなくなり、また電流が通過できる範囲が狭まる(抵抗が増える)ため、オフリーク電流を低減できる。しかし、シリコン層の厚みは $V_{th}$ に影響を与えるので、これを薄くすると $V_{th}$ が下げられる反面、トランジスタの制御が難しくなる。したがって、闇雲にシリコン層を薄くすればいいというものでもない。

インテルは完全空乏型のシリコン層を使用することで、部分空乏型よりもオフリーク電流を 1/100 にできると発表している。このトランジスタは完全空乏型基板トランジスタ (Depleted Substrate Transistor)、略して DST と呼ばれる。DST では、 $V_{th}$  を下げられるので、トランジスタの動作電圧を低減したり、トランジスタの ON/OFF 動作 を高速化したりするのに役立つ。DST では、部分空乏型 SOI トランジスタとは異なり、フローティングボディ効果が発生しなので、従来のトランジスタと同じ方法で回路設計が行えるのが利点であるとして、IBM を牽制している。

#### (3) ゲートリーク電流対策

ゲートリーク電流対策としては、ゲート酸化膜の素材を変更することが考えられている。ゲート酸化膜とは、ソースとドレイン間を流れる電流をゲートに流れ込まないように絶縁するための絶縁膜で、この部分が薄ければ薄いほどトランジスタは高速に動作する。しかし、ゲート酸化膜が薄くなるとゲートリーク電流が増加する。そこで、ゲート酸化膜を厚くする方法が考えられるが、できることならある程度の薄さも維持したい。

これを解決するため、ゲート酸化膜に誘電率の高い (high-k) 材料を用いることで、誘電率の比率で酸化膜を厚くすることが可能になり、リーク電流が減る。これは、高速化技術のために提案されている low-k 材料および銅配線とは対極的であるが、こちらは配線に関する技術である。配線に関しては、寄生容量が電流の流れを妨げ、電力を消費する。このために、層間膜は誘電率の低い材質 (low-k) や電気的抵抗の少ない銅配線が好まれるのである。

ゲート酸化膜に何が最適な素材であるかは、半導体メーカーが力を入れて研究している分野であり、現状、これといった決定版はない、現在、ゲート酸化膜には:酸化シリコン $(SiO_2)$ を使うことが多

い、high-k の絶縁膜の目的は、物理的には、厚い膜で薄い  $SiO_2$  と同じ電気特性(ゲート容量)を実現することでる。しかし、将来的には、インテルは誘電率が二酸化シリコンの約5倍の酸化ジルコニウム(ジルコニア: $ZrO_2$ )、酸化ハフニウム( $HfO_2$ )、二酸化チタン( $TiO_2$ )、五酸化タンタル( $Ta_2O_5$ )などを使用することを提案している。AMDは誘電率が約2倍の窒化シリコン( $Si_3N_4$ )を使用することを提案している。これらを使用することで、二酸化シリコンと同じ電気的性能を発揮しながら、ゲートリーク電流をその $1/10,000\sim1/1,000$ に抑えることができるといわれている。

ただ、high-k の絶縁膜は、二酸化シリコンとは違って製造が難しく、さらに、シリコンとの相性が悪く信頼性に問題があると言われている。また、high-k の絶縁膜では、 $SiO_2$  に較べるとキャリア(電子や正孔)の移動度が落ちる(つまり、動作速度が落ちる)という問題もある。これらを解決するのが今後の課題である。新しいゲート絶縁膜が主流になる時期は、早くて、ゲート長が65nmの世代と言われている

2002 年 12 月に開催された IEDM (International Electron Device Meeting) では、high-k の絶縁膜として  $HfO_2$  が一般的になった感がある。これの膜質の改良や製造性の改善のために N や Al, Si を添加する論文が多数提出されている。

#### (4) SOI技術

あるいは、SOI (Sillicon On Insulator: 絶縁体の上のシリコン)という技術で、ソース-ドレインとシリコン基板の間に二酸化シリコンによる極薄の絶縁層を組み込む方法がある。SOI 層を加えることで、シリコン基板とソースあるいはドレインの間の寄生容量を低減することにより、ソース-ドレイン間の抵抗を減少させ、電流の流れを20~30%よくする技術である。同じ性能(電流の量)であれば、電源電圧を下げることにより消費電力をほぼ半減できる。まあ、これは、低消費電力というよりも高速化技術である。

SOIという技術は、30年以上前から半導体メーカーが研究をしている。その中で有名なのは、ハリスセミコンダクター社のSOS(シリコンオンサファイヤ)である。しかし、これは非常に高価なため実用にならなかった。現在は、二酸化シリコンを使用して比較的安価に作られているが、今後も新たな材質の発見が望まれる。

#### まとめ

今後、ますます重要な技術になると考えられる低消費電力技術について述べてきた。その根本原理は、低い動作周波数と低い動作電圧を実現すること、回路の内部状態をできるだけ変化させないこと、一度に駆動する回路を減らすことである。これらを組み合わせることで、今後も、いろいろな制御方式が考案されていくことと思われる。トランジスタレベルでの低消費電力化については、現在発展途上というところだろうか。

#### 参考文献

 中川靖,「64ビット RISC マイクロプロセッサ VR4131」,『NEC Device Technology』, 2001, No.74

なかもり・あきら フリーライタ

注:電荷を運ぶキャリア(電子または正孔)が存在していない領域のこと、空乏があると電流の流れが悪くなる。



小型・著作権保護機能を特徴とする

## SDIOカード開発入門

## <sup>第1回</sup> SDIOカードの現状

井手野雅明

#### はじめに

現在、SDIO (Secure Digital Input/Output) 関連の情報や資料は非常に少なく、SDIO カード (カード側) はもちろん、SDIO 対応のモバイル機器 (ホスト側) を開発したい場合も、いったいどこから手をつけてよいのかわからない場合が多いだろう。そこで全6回の予定で、SDIO カードについて詳しく解説する。これから SDIO の設計開発を検討される方の道しるべとなれば幸いである。

連載の予定を簡単に示すと、次のようになる。

- ●第1回 SDIOカードに関するさまざまな市場の状況や将来 について
- ●第2回 SDIO 標準規格について
- ●第3回 IEEE802.11b 対応の SDIO 無線 LAN カードについて
- ●第4回 SDIOカードを設計するための具体事例(前編)
- ●第5回 SDIOカードを設計するための具体事例(後編)
- ●第6回 今後の市場展開などまとめ

開発事例などでは、実際に Palm などの PDA を使って SDIO カードを動作させるところまでを解説するなど、できるだけ具体的な事例を紹介していく予定である。



#### 高集積サブシステム SDIO カードの登場

SDIO(エスディーアイオー)は、SDアソシエーションで策定されたSDメモリカードと同様の規格の一つである。一般的に

よく知られる SD メモリカードと比べると、その外形(長さ  $32mm \times 幅 24mm \times 厚さ 2.1mm$ )の長さ方向に関する規格だけが異なり、横幅並びに厚さに関しては SD メモリカードとまったく同じ形状をしている。端子数も SD メモリカードと同じ 9 ピンで配置位置も変わらず、電気的条件も同等である (写真 1).

SDIOカードの普及が待たれる理由の一つとしては、世界的に広がる機器のモバイル化または小型化の流れにある。ユーザーはいろいろな機能を一つの機器で実現し、しかも長時間ストレスなく使用できるサイズを求める傾向が見られる。しかし、これらすべての要求にこたえようとすると"機能増加→コスト増加"となり、さらに機器サイズの肥大化、消費電力の増大など、ユーザー要求にこたえようとすればするほどユーザーの満足を得ることが難しくなるという矛盾をはらんでいる。

SDIO は、このような多様化するユーザー要求をユーザーが個別にカードを選択することにより、機器本体はソケットという非常に安価でかつ構成しやすいソリューションを機器に搭載するだけで、要求機能の多くを実現できるようにしたものだ。一方、カード開発側にとってもSDアソシエーションに加入(機密保持書と同意書にサインが必要)すれば、SDIO カードの設計開発および販売を行うことができる。

SDIO カードは小型・薄型でありながら、PC (PCMCIA) カード (以降 PC カード)、コンパクトフラッシュカード (以降 CF カード) と同等以上の機能を提供する、世界最小のカードソリューションであることから (写真 2)、これからも多くの SDIO カードが世に登場すると期待されている。

〔写真 1〕SD メモリカードと SDIO カード・





(a) SDメモリカード(表面と裏面)



(**b**) SDIO カード

## SD アソシエーション

SDアソシエーションは、1999年8月に松下電器産業と東芝、SanDisk Corporationの3社で設立された、おもにSDメモリカードの共同開発、業界標準化およびプロモーションを目的とした団体である。現在会員数は588社(2003年5月現在)に達する規格標準団体となっている。SDアソシエーションではGeneralメンバとExecutiveメンバの2通りのメンバカテゴリがあり、それぞれ年会費が異なる。実質的な違いは、Generalメンバが制定された規格を入手し使用する権利を有するが、Executiveメンバは実際の規格制定にも参画できる権利を有する。

基本的に SDメモリカード規格、SDIO カード規格は最低でも General メンバにならないと入手ができないしくみになっており、SDアソシエーションの Webページからダウンロードできる申込書 (Membership Application) に必要事項を記入してメールもしくは FAX することにより、後日 SDアソシエーションから加盟承認の連絡がある。この機密保持契約書に署名捺印し年会費を支払うことによってはじめて加盟が成立する。詳しくは SD アソシエーションの Webページを参照してほしい(http://www.sdcard.org/)。

したがって、SDメモリカード標準規格とSDIOカード標準規格は、同じSDアソシエーションという親から生まれた双子のような関係だといえる。しかし、いくつか注意点がある。基本的にSDメモリカードのみに対応しているホスト機器(たとえば、現状のデジタルカメラなど)には、SDIOカードを使用するにはSDIO標準規格に適合したホスト機器である必要がある。SDIOカードに適合したホスト機器は、SDメモリカードを使用することもできる(図1)。またSDアソシエーションでは、BluetoothやGPSなどのアプリケーションごとの規格も制定しており、これらはSDIOカード標準規格とあわせて各種アプリケーションに対応したSDIOカードを実現できるよう指針を与えている。

#### 〔写真 2〕各種無線 LAN カードの比較

(下: PC カード, 左上: CF カード, 右上: SDIO カード)



## 

SDメモリカードの"SD"は Secure Digital の略で、強力な著作権保護機能を有するメモリカードであることを表している。一般的には小さいカードというイメージが先行しているが、このSDメモリカードが誕生した背景には、音楽、映画、写真など著作権を有するコンテンツ配信において、データの違法コピーを防ぎ、e-Commerceを実現することが念頭に置かれている。

2002年の全世界製品出荷ベースでの実績では、SDメモリカードはメモリースティック、コンパクトフラッシュを抜き1,800万枚と世界第1位の出荷量に到達した(図2)、これらは搭載され

#### 〔図 1〕SDメモリと SDIO カードの関係



#### 〔図2〕メモリカードの出荷実績



注:Techno Systems Research調べ

る機器,たとえば携帯電話やPDA,そしてデジタルカメラなどの小型機器に採用された影響が大きく、またSDアソシエーションに加盟している企業がすでに900種を超える多くのSDメモリカードに対応した製品を出荷していることにもよる。将来的にはこの強力な著作権保護機能を活かしたサービスの展開もあわせ、ますますSDメモリカードの需要が拡大するであろう。

## 1

#### SD メモリカードと SDIO カードの違い

SDIO カードは基本的に SD メモリカードと用途が大きく異なり、機能も異なっている。 SD メモリカードは情報を蓄積または保護することがおもな機能となるが、 SDIO カードは Bluetooth や無線 LAN、 PHS、 GPS などのいわゆる PC カードや CF カードに見られるような I/O 機能を搭載しているカードである。 つまり情報を蓄積するのではなく、処理するカードと考えたほうがわかりやすい。

SDメモリカードとSDIOカードの内部構成を図3に示す。 SDメモリカードは、SDメモリインターフェース回路と著作権 保護機能を有する回路にフラッシュメモリが接続されている。

#### 〔図3〕SDメモリカードとSDIOカードの内部構成の違い





#### 〔図4〕SDIOカードの実装上のサイズ



構造的には非常に簡単に示してあるが、実際はかなり複雑な処理を内部で行っており、確実な情報の蓄積と保管そして著作権保護を行っている。

一方、SDIO カードを実現するには、まず SDIO 標準規格 Ver1.0 (現在の最新版規格) に適合した SDIO コントローラインターフェース回路を用意する必要がある。これなしでは SDIOホスト標準規格に対応した SDIOホストデバイス、または同等の機能を実現できる CPU との通信を行うことができない。これらのインターフェース回路は IP としてリリースされているが、一般的にはすでに市販されている個別専用 LSI を使用するのが妥当である。本連載では、この SDIO コントローラインターフェース回路として SD-Path CG100 (シイガイズ、写真3)を使用して解説を進める予定である。

SDIO カードでは SDIO コントローラの後に、PHS や Blue tooth、無線 LAN などのチップセットを接続して機能を実現することになるが、実装サイズが非常に小さいことから各種チップセットの厚さについて考慮する必要がある。チップセットの構成上、SDIO 標準規格の厚さ 2.1mm に収容できない場合は、SDIO カードを機器に挿入した際に機器外に飛び出すエリアに膨らみをもたせて実現する方法がある。しかし、この方法ではカードサイズが長く大きくなり、せっかくの小型という SDIOのメリットを打ち消してしまう(図 4).

基本的に SDIO 標準規格では、長さ方向に関しての規定はないが、カード強度の問題がある以上、搭載する機能とチップセットの見きわめが重要となるので、 CG100 のように厚さ 0.9 mm 程度の部品を選定するのが賢明といえる。 ちなみに、SDメモリカードの規格では長さ方向にも規定があるため、カードサイズの拡張はできない。



#### SDIO カードが必要とされている背景

SDメモリカードはその小型な形状が評判となり、多くのモバイル機器で採用が相次いでいる。しかしながら市場の要求は単にメモリとしてのカードに加え、通信機能やカメラ、GPSなどの追加機能をカードで実現する要求が出てきた。既存のPC

(写真3) SDIO コントローラインターフェース IC SD-Path CG100 (シイガイズ)



〔写真4〕SDIOに最適なソケットの例(松下電工)



カードやCFカードでは、すでにこれらのような複数の機能をもつカードは存在しているものの、その外形的要因により小型モバイル機器での採用は見送られることがあった。そこに登場したのが、もっとも形状の小さいSDIOカードである。

また、SDIO カードのピン数や物理形状は SD メモリカードと同じサイズなので、基本的には SD メモリカードと SDIO カードでは同じソケットが使える。現在、SD メモリカードおよび SDIO カード用のソケットは数社から発売されているが、その中から代表的なソケットを写真 4 に紹介する。このソケットは幅 28.2mm × 長さ 28.4mm (端子含まず) × 厚さ 2.7mm の SDIO 対応のソケットで、最大の特徴はソケットの表面/裏面ともに金属のシェルで覆われている点である。SDIO カードでは、ESDや EMI 対策が求められており、表面と裏面が金属で覆われているこのソケットはうってつけといえる。

すでに説明したように、今のところSDメモリカード専用機器にSDIOカードを使用することはできないが、今後の展開としてはSDメモリカードとSDIOが兼用で使用できるSDIOホストデバイスを搭載した機器が多く登場する予定である。したがって、SDIOカードはその小型形状と高機能を兼ね備えたソリューションとして市場から求められることは必至であり、カード供給側としてはいろいろなアイデアを盛り込んだSDIOカードを実現し市場に供給することができる大きなチャンスとなる。

## 

SDIO は規格が制定されてからほぼ3年が経過している。実質的には2001年10月のCEATECで発表された東芝のBluetoothカードが最初のSDIOカードといわれている。その後、各社より開発着手または発売開始のプレスリリースが発表されている。

唯一の問題点といえば、SDIOホストを搭載した機器ラインナップの市場供給量といわれるが、少なくともPDAの世界で

#### 〔図 5〕SDIO カードと SDIO ホスト対応機器の増加



は Palm 社および東芝がいち早く SDIO 対応製品を出荷し、COMPAQ も同様に SDIO ホスト搭載の PDA をリリースしている。よって、現在では PDA 業界では、ほぼ SDIO が標準となりつつある傾向にあるようだ。

一方ほかの機器では、PCでSDIOホスト対応機器が出始めたのを皮切りに、デジタルカメラやデジタルビデオカメラ、携帯電話などでSDIO採用の検討が始まって(図5)いる。さらに最近では、SDIOカードに対する要求として新たに低消費電力化が付け加えられた。

これらのことにより、過去から現在にかけてだいたい一巡した機器本体へのSDメモリカード専用ホストの搭載から、今後はSDIO対応ホストの搭載へ移行することになる。なぜならば、SDメモリカード用ソケットとSDIO用ソケットは同じ大きさ(同一ソケットで兼用)であるため、製品自体の筐体設計などを変えずに高機能なSDIOカードが使えるというメリットが出てくるためである。さらに付加価値をつけ販売拡大をねらうSDIO対応機器が登場する見込みである。

## **▼**SDIO カードの将来性

SDIO カードは現時点では単機能、つまり Bluetooth 単体や無線 LAN 単体というような製品ラインナップとなっているが、将来的にはこれら機能が複合化される可能性がある。現時点で注目を集めているのが Bluetooth + IEEE802.11b 無線 LAN の複合カードや、IEEE802.11b + 11g のマルチ無線 LAN カード、無線 LAN 機能+デジタルカメラ、PHS + 無線 LAN などが挙げられている。また、最近新しく発表された Mini-SD で SDIOを実現しようという発想も出てきている。

そして現在市場から要求されているのが、SDメモリをSDIO カードに搭載することである。これはSDIO コンボカードと呼ばれている。SDIO コンボカードは**図 6** のように、従来のSDメモリカードをそのまま SDIO カードに取り込む方法で、各種ア

プリケーションを展開するに大きな武器となる。具体的には SDIO デジタルカメラで撮影した高画質写真をそのまま内蔵の SDメモリに格納したり、SDIO-GPS カードでは地図情報を内蔵 SDメモリに格納しておくことができる。ただし、SDIO コンボカードを実現するには別途契約が必要となるため、検討に際しては SD アソシエーションにコンタクトを取ることが最優先となるので注意してほしい。

## 1

#### SDIO カードのマーケット概要

2003年6月の段階ですでにいろいろなカードが発売されている。発売を予定しているカードを含めると、筆者が調べた範囲だけでも図7のようになる。これ以外にも多くのカードがリリースされていると思われ、相当数のSDIOカードが既に市場に出ていることになる。

比較的市場が大きいとされているのは無線系のカードであり、Bluetooth、IEEE802.11b 無線 LAN カード、PHS カードなどが挙げられる。とくに Bluetooth は近年チップセットが集積化され、かつ価格も値頃感が出始めたこともあり、多くのカードベンダがこの市場への参入機会を伺っている状況である。消費電力も少なく SDIO カードを実現するには非常に手ごろな仕様であり、今現在としてはホットな市場といえる。この Bluetoothでの SDIO カード市場では価格競争が展開される可能性が大き

#### 〔図 6〕SDIO コンボカードの内部構成



#### 〔図7〕2003年6月現在のSDIOカード



いが、市場が大きいため複数のカードベンダが共存できる市場ともいえる.

次にホットなのは無線 LAN カード市場といえる。これも Bluetooth と同様でカードという機能性を大きく活かせるアプリケーションであり、しかも昨今のホットスポットなどの登場でモバイル型機器への搭載が急務となり、各カードベンダが開発を始めている。この市場で優位に立つには、他のカードにはない独自性、たとえば低消費電力化などが必須となる。

その他の市場としてはデジタルカメラカード市場が比較的競争が激しいといえるかもしれない。デジタルカメラは、CMOSセンサなどの消費電力の少ない撮像素子を応用することにより、条件の一つである低消費電力化を実現している。モバイル型機器で要求されるのはむしろ写真ではなく、情報をクリップする用途、すなわちイメージの入力として使用されるケースが圧倒的に多い。よって、これらのカードでは機能的に接写能力&ディジタルズームといった両面での機能を充実させる必要があるといわれている。

最後に GPS, スキャナ, チューナなどの SDIO カード市場であるが, 現在調べた限りでは存在はしていないようだ. GPS などはこれから各種サービスと合体するかたちでの需要が期待されており, 実際に設計開発を行う場合でも, すでにチップセットなどが存在していることから, 実現化がいちばん近い存在ではないかと思われる.

今後登場が期待されるカードとしては、IEEE802.11g 無線 LAN カード、地上デジタル波放送テレビチューナなどといわれているが、現状ではチップセットおよびカード集積と消費電力などの問題があり、なかなか前に進めないのが現状である。しかしながら、SDIO 対応機器が今後増加するにともない、まったく新しい機能をもった SDIO カードが登場するのも時間の問題かもしれない。



#### SDIO カードを開発するには?

SDIO カードを開発する場合、まずは SD アソシエーション に加入することが先決である。加入後は SDIO 標準規格書をメンバ専用ページからダウンロードし、内容を理解することが必要となる。しかし、初めて SDIO 標準規格書を見てもなかなかすぐには理解することができず、実際に設計環境を構築して理解しながら開発を進める形をとるケースが多いようだ。

加えて開発を進める場合、実現しようとしているアプリケーションによって、SDアソシエーションで規定されているアプリケーション規格に適合させる必要が出てくる場合があるので、SDアソシエーションのメンバページをよく確認し、常に最新の資料をダウンロードしてSDIO標準規格とあわせて理解することが必要となる.

基本的に SDIO カードは、SDIO コントローラデバイスとア プリケーションチップセットの大きく分けて2部の構成になる.

#### 〔図8〕CG100開発キット



注:SD-IDEはSD-IDEソフトウェアとリファレンスボードCG100EDKで構成されており、別売不可

したがって、対応するアプリケーションのチップセットのイン ターフェースと、SDIO コントローラデバイスのインターフェー スが合うかどうかも事前に検討が必要である。

具体的な SDIO カードの開発方法は今後の連載で解説するとして、ここでは開発を始める前に用意しなければならない設計開発環境について、具体例を紹介する.

SDIO カードを開発するには、ホスト側環境とカード側環境を整備する必要がある。また、重要なソフトウェア、とくにドライバソフトウェアの開発をあわせて行えるようにしておくことが重要である。もし、OS プラットホームを Windows CE 系にするのであれば SDIO Now!(ビースクウエア)を購入することをお勧めする。

さて、実際の開発環境であるが、一から環境を構築するのは時間がかかるだけではなく、ミスによる設計開発品質の低下と手戻りによる時間的ロスが発生するためにあまりお勧めできない。本連載ではSDIO 開発環境ツールのSD-IDE(シイガイズ)を使用してSDIO 標準規格を理解しながら設計開発を進める。

SD-IDE は現在、OS プラットホームとして Windows XP と Windows CE が用意されている。構成としては、SDIO ソケットと SDIO ホストデバイスである MN5774 が搭載されている SDIO ホストボード (松下電器産業) を PCI バスで PC に接続し

SDIO ホスト側環境とする。カード側の環境は、SDIO カード形状のコネクタをもつ CG100 リファレンスボード" CG100EDK" (シイガイズ)を使用している。なお SD-IDE と CG100EDK は、CG100 デバイス開発専用としてセットで構成しているので別売りは行っていない(図8)。また SDIO ホストボードは、今のところ MN5774 のみの対応となっている。SD-IDE に関する詳細情報は次の URL を参照してほしい。

http://www.c-guys.jp/

#### まとめ

以上、SDメモリカードとSDIOカードの違いからSDIOカードが置かれている現状、そして将来性と実際に設計開発行ううえでのポイントなどを解説した。次回では、肝となるSDIO標準規格の概要をわかりやすく解説する予定なので、SDIOカードを開発するうえでの助けとなれば幸いである。

SDIOマーケットの拡大はより多くの SDIO カードの登場が あって初めて成り立つものであることから、新しいアイデアを 満載した、素晴らしい SDIO カードの登場を願ってやまない。

いでの・まさあき シイガイズ(株) マーケティング部

#### TECH I Vol.17

#### 好評発売中

## リアルタイム OS と組み込み技術の基礎

B5 判 200ページ 高田 広章 監修・著

実践µ ITRON プログラミング

岸田 昌巳/宿口 雅弘/南角 茂樹 著 定価 2,200 円(税込)

CQ出版社 〒170-8461 東京都豊島区巣鴨1-14-2 販売部 TEL.03-5395-2141 振替 00100-7-10665

# PUELLOREDO









### DCTとフィルタバンク

三谷政昭

前回は、DCTの物理的な意味付けと、一般式を示し、DCTによる信号解析の考え方や特徴を中心に、具体的数値例に基づいて解説した。

今回は、DCT とフィルタバンク(複数のディジタルフィルタを並列構成したもの)の関係について説明する. すなわち、DCT が周波数分解、IDCT が信号再合成の機能を有することの数式上の裏付けを中心に、具体例を示してわかりやすく述べる. なお、フィルタバンクの考え方には、オーディオや画像などの信号データの圧縮、ウェーブレット変換の実現および設計などの土台になるヒントが数多く含まれているので、じつくりと読み進めていってもらいたい. (筆者)

## DFT と信号解析ディジタルフィルタ

最初に、N サンプルのディジタル信号  $\left\{x_n\right\}_{n=0}^{n=N-1}$  に対する DFT 計算が、信号解析ディジタルフィルタ (以後、信号解析 DF と記す) として実現できることを思い出してもらうことから始めよう (**図 18.1**). それでは、DFT 値の計算式から信号解析 DF が得られるプロセスを簡単に示しておく.

いま、周波数  $f_{\ell}$  [Hz], すなわち、

$$f_{\ell} = \ell \Delta f = \ell \times \left(\frac{f_s}{N}\right) = \ell \times \left(\frac{1}{NT}\right) \quad \dots \quad \dots \quad (1)$$

ただし,  $\ell = 0$ , 1, 2, ..., (N-1) T[秒]はサンプリング間隔

#### 〔図 18.1〕DFT 計算は信号解析ディジタルフィルタ群



 $f_s \left( = \frac{1}{T} \right)$  はサンプリング周波数(単位[Hz])

における DFT 値  $\{G_\ell\}_{\ell=0}^{\ell=N-1}$  は,

$$G_{\ell} = \frac{1}{N} \left\{ x_0 + x_1 W_N^{\ell} + \dots + x_{N-2} W_N^{(N-2)\ell} + x_{N-1} W_N^{(N-1)\ell} \right\}$$

で与えられる. さらに式(2)の両辺に $W_N^\ell$ を乗じて,

$$G_{\ell}W_{N}^{\ell} = \frac{1}{N} \left\{ x_{0}W_{N}^{\ell} + x_{1}W_{N}^{2\ell} + \dots + x_{N-2}W_{N}^{(N-1)\ell} + x_{N-1}W_{N}^{N\ell} \right\}$$

.....(2)

と表される. ここで,

$$W_N = e^{-j\frac{2\pi}{N}} = \cos\left(\frac{2\pi}{N}\right) - j\sin\left(\frac{2\pi}{N}\right)$$
 ......(4)

であることから.

という性質を適用すれば,

$$W_N^{(N-k)\ell} = W_N^{N\ell} \times W_N^{-k\ell} = \underbrace{(W_N^N)^\ell}_N \times W_N^{-k\ell} = W_N^{-k\ell} \cdot \cdots \cdot (6)$$

となる関係が導かれる.

よって、式(4)、式(5)を式(3)に代入し、式(6)を適用することにより、

$$G_{\ell}W_{N}^{\ell} = \frac{1}{N} \left\{ x_{0}W_{N}^{-(N-1)\ell} + x_{1}W_{N}^{-(N-2)\ell} + \dots + x_{N-2}W_{N}^{-\ell} + x_{N-1} \right\}$$

となる. そこで,

## やり直しのための信号数学

#### 〔図 18.2〕信号解析ディジタルフィルタの構成( $V_{V}=\mathrm{e}^{jrac{\mathcal{H}}{N}}$ )・





$$V_N = W_N^{-1} = e^{j\frac{2\pi}{N}} = \cos\left(\frac{2\pi}{N}\right) + j\sin\left(\frac{2\pi}{N}\right) \dots (8)$$

と置けば、式(7)は、

$$G_{\ell}V_{N}^{-\ell} = \frac{1}{N} \left\{ x_{0}V_{N}^{(N-1)\ell} + x_{1}V_{N}^{(N-2)\ell} + \ldots + x_{N-2}V_{N}^{-\ell} + x_{N-1} \right\}$$

と表されるので、両辺に $V_N^\ell$ を乗ずることにより、

$$G_{\ell} = \frac{1}{N} V_{N}^{\ell} \left\{ x_{0} V_{N}^{(N-1)\ell} + x_{1} V_{N}^{(N-2)\ell} + \dots + x_{N-2} V_{N}^{\ell} + x_{N-1} \right\}$$

となる関係が成立する.

以上の結果に基づき,式(9)はディジタルフィルタとして **図 18.2**のように構成される。ここで、**図 18.2**の $\nabla$ 印で表される係数(乗算係数、あるいはタップ係数ともいう)、すなわち、

$$\left\{\underbrace{V_N^0, V_N^\ell, V_N^{2\ell}, \dots, V_N^{(N-1)\ell}}_{N/\!\!\mid\!\!\mid\!\mid\!\mid}\right\} \qquad (10)$$

は、最大振幅が1で周波数f。[Hz]の複素正弦波,

を時間間隔T[秒] ごとにサンプリングした値であり、k=0, 1, 2, ..., (N-1) に対して,

$$\begin{split} v(kT) &= \mathrm{e}^{j2\pi f_{\ell}kT} = \mathrm{e}^{j2\pi \ell \left(\frac{1}{NT}\right)kT} \\ &= \mathrm{e}^{j\frac{2\pi}{N}k\ell} = \left(\mathrm{e}^{j\frac{2\pi}{N}}\right)^{k\ell} = V_{N}^{k\ell} \end{split}$$

となる. このとき,式(10)のタップ係数が直交基底ベクトルであることも覚えておいてほしい.

### DFTのフィルタバンク構成

ところで、t=(N-1)T[秒]における**図 18.2** のディジタルフィルタの出力  $\mathbf{y}_{N-1}^{(\ell)}$  は、

$$y_{N-1}^{(\ell)} = \frac{1}{N} V_N^{\ell} \left\{ x_{N-1} + x_{N-2} V_N^{\ell} + \dots + x_1 V_N^{(N-2)\ell} + x_0 V_N^{(N-1)\ell} \right\}$$

であり、式
$$(2)$$
 より、
$$y_{N-1}^{(\ell)} = G_{\ell} \cdot \cdots \cdot (13)$$

#### 〔図 18.3〕 DFT のフィルタバンク構成・



となるので、DFT 値を算出できることがわかる。つまり、DFT 計算がフィルタとして実現可能であり、周波数帯域ごとのスペクトル成分を抽出する働きを有することになるのである。この 周波数成分を取り出すための  $\ell=0,1,2,...,(N-1)$  に対する N 個の信号解析 DF は、"フィルタバンク"と称されるフィルタ群を構成する(**図 18.3**)。フィルタバンクの各出力  $\left\{ y_{N-1} \right\}_{\ell=0}^{\ell=N-1}$  が DFT 値  $\left\{ G_{\ell} \right\}_{\ell=0}^{\ell=N-1}$  に相当し、信号解析 DF と DFT の相互関係を知ることができよう。

次に、t = nT に対して、式(12) を総和記号 $(\Sigma)$  を用いて表現すれば、

と表される" 差分方程式 "で記述される。式 (14) の総和記号  $(\Sigma)$  をはずして表してみると、

$$\begin{split} y_{n}^{(\ell)} &= V_{N}^{\ell} \times \left[ \frac{1}{N} \left\{ x_{n} + x_{n-1} V_{N}^{\ell} + x_{n-2} V_{N}^{2\ell} + \dots \right. \right. \\ &\left. + x_{n-(N-2)} V_{N}^{(N-2)\ell} + x_{n-(N-1)} V_{N}^{(N-1)\ell} \right\} \right] & \cdot \cdot \cdot \cdot \cdot (15) \end{split}$$

となる、続いて、両辺をz変換して、

$$\begin{split} Y_{\ell}(z) &= \sum_{n=0}^{N-1} y_n^{(\ell)} z^{-n} \\ &= y_0^{(\ell)} + y_1^{(\ell)} z^{-1} + y_2^{(\ell)} z^{-2} + \dots + y_{N-1}^{(\ell)} z^{-(N-1)} \end{split}$$

$$\begin{split} X(z) &= \sum_{k=0}^{N-1} x_k z^{-k} \\ &= x_0 + x_1 z^{-1} + x_2 z^{-2} + \dots + x_{N-1} z^{-(N-1)} \end{split}$$

とおけば、

$$Y_{\ell}(z) = V_{N}^{\ell} \times \left[ \frac{1}{N} \left\{ X(z) + z^{-1} X(z) V_{N}^{\ell} + z^{-2} X(z) V_{N}^{2\ell} + \dots \right. \right. \\ \left. + z^{-(N-2)} X(z) V_{N}^{(N-2)\ell} + z^{-(N-1)} X(z) V_{N}^{(N-1)\ell} \right\} \right]$$

$$(16)$$

と表される (図 18.4). なお、式 (3) の差分方程式をもとに、z 変換して伝達関数を得る計算プロセスは、誌面の都合で割愛する. 詳細については、拙著『やり直しのための工業数学』 (CQ 出版社) の第 19 章  $\lceil z$  変換」に詳述してあるので、参考としてお薦めしたい。

次に、式(16)より、信号解析 DF の伝達関数  $H_{\ell}(z)$  は、

$$H_{\ell}(z) = \frac{Y_{\ell}(z)}{X(z)} \left( = \frac{\text{出力信号のz 変換}}{\text{入力信号のz 変換}} \right)$$

#### 〔図 18.4〕信号解析ディジタルフィルタの伝達関数計算の流れ



(a) 差分方程式のz変換

$$H_{\ell}(z) = \frac{Y_{\ell}(z)}{X(z)} = V_{N} \ell \times \left[ \frac{1}{N} \{ 1 + z^{-1} V_{N} \ell + z^{-2} V_{N}^{2} \ell + \dots + z^{-(N-1)} V_{N}^{(N-1)} \ell \right]$$
 (**b**) 伝達関数

#### 〔図 18.5〕DFT のフィルタバンク構成におけるポリフェーズ処理



$$= V_{_{\!N}}{^{\,\ell}} \times \left[ \frac{1}{N} \Big\{ 1 + z^{-1} V_{_{\!N}}{^{\,\ell}} + z^{-2} V_{_{\!N}}{^{\,2\ell}} \dots + z^{-(N-1)} V_{_{\!N}}{^{(N-1)\ell}} \, \Big\} \right] \, \cdots (17)$$

と書ける。ここで、 $V_N^\ell$  は入力信号のタイミングの違いと出力を整理するための処理であり、位相進みに相当する[ポリフェーズ処理とよばれる。ポリ (poly) は「複数」、フェーズ (phase) は「位相」の意味)。

さて、式(17)の進み位相分 $V_N^\ell$ を除いた伝達関数 $\tilde{H}_\ell(z)$ を、

$$\tilde{H}_{\ell}(z) = \frac{1}{N} \left\{ 1 + z^{-1} V_N^{\ell} + z^{-2} V_N^{2\ell} \dots + z^{-(N-1)} V_N^{(N-1)\ell} \right\} \cdots (18)$$

と定義するとき,

と表される(**図 18.5**). なお、伝達関数 $\tilde{H}_{\ell}(z)$ の添字  $\ell$  は式(1)の DFT 計算で分析できる周波数  $f_{\ell}$  [Hz] である.

以上のように、ディジタル信号  $\left\{x_n\right\}_{n=k-N+1}^{n=k}$  に対して、 $\Delta f = \frac{1}{NT} \left[\text{Hz}\right]$  ごとの離散周波数でのスペクトル値が、**図 18.3** のフィルタバンク構成における N 個の信号解析 DF の出力値として得られることが理解できる.

#### 例題1

N=4サンプルに対する DFT のフィルタバンク構成のブロック図を示せ、あわせて、各信号解析 DF の差分方程式、伝達関数も求めよ、

#### 解答1

式(8)より、

$$\begin{split} V_4 &= \mathrm{e}^{j\frac{2\pi}{4}} = \cos\!\left(\frac{2\pi}{4}\right) \!+ j \sin\!\left(\frac{2\pi}{4}\right) \!= j \\ \begin{cases} V_4^0 &= V_4^4 = V_4^8 = \dots = 1 \\ V_4^1 &= V_4^5 = V_4^9 = \dots = j \\ V_4^2 &= V_4^6 = V_4^{10} = \dots = -1 \\ V_4^3 &= V_4^7 = V_4^{11} = \dots = -j \\ \end{cases} \end{split}$$

となる関係が成り立つことに注意して、式(15)に基づき、信号解析 DF の差分方程式が次のように得られる.

$$y_{n}^{(0)} = \frac{1}{4} \left\{ x_{n} + x_{n-1} + x_{n-2} + x_{n-3} \right\} \qquad (21)$$

$$y_{n}^{(1)} = V_{4}^{1} \left[ \frac{1}{4} \left\{ x_{n} + x_{n-1} V_{4}^{1} + x_{n-2} V_{4}^{2} + x_{n-3} V_{4}^{3} \right\} \right]$$

$$= j \times \left[ \frac{1}{4} \left\{ x_{n} + j x_{n-1} - x_{n-2} - j x_{n-3} \right\} \right] \qquad (22)$$

$$y_{n}^{(2)} = V_{4}^{2} \left[ \frac{1}{4} \left\{ x_{n} + x_{n-1} V_{4}^{2} + x_{n-2} V_{4}^{4} + x_{n-3} V_{4}^{6} \right\} \right]$$

$$= (-1) \times \left[ \frac{1}{4} \left\{ x_{n} - x_{n-1} + x_{n-2} - x_{n-3} \right\} \right] \qquad (23)$$

$$y_{n}^{(3)} = V_{N}^{3} \left[ \frac{1}{4} \left\{ x_{n} + x_{n-1} V_{4}^{3} + x_{n-2} V_{4}^{6} + x_{n-3} V_{4}^{9} \right\} \right]$$

$$= (-j) \times \left[ \frac{1}{4} \left\{ x_{n} - j x_{n-1} - x_{n-2} + j x_{n-3} \right\} \right] \qquad (24)$$

また、式(18)、式(19)より伝達関数は次のように表される.

## やり直しのための信号数学

[図 18.6] 例題1 のフィルタバンク構成



#### 〔図 18.8〕合成ディジタルフィルタの構成



$$\begin{cases} \tilde{H}_{0}(z) = \frac{1}{4} \left( 1 + z^{-1} + z^{-2} + z^{-3} \right) \\ H_{0}(z) = \tilde{H}_{0}(z) \end{cases}$$
 ....(25)

$$\begin{cases}
\tilde{H}_{1}(z) = \frac{1}{4} \left( 1 + z^{-1} V_{4}^{1} + z^{-2} V_{4}^{2} + z^{-3} V_{4}^{3} \right) \\
= \frac{1}{4} \left( 1 + j z^{-1} - z^{-2} - j z^{-3} \right) & \cdots \\
\end{cases}$$
(26)

$$H_1(z) = V_4^1 \tilde{H}_1(z) = j \tilde{H}_1(z)$$

$$H_2(z) = V_4^2 \tilde{H}_2(z) = -\tilde{H}_2(z)$$

$$\begin{cases}
\tilde{H}_{3}(z) = \frac{1}{4} \left( 1 + z^{-1} V_{4}^{3} + z^{-2} V_{4}^{6} + z^{-3} V_{4}^{9} \right) \\
= \frac{1}{4} \left( 1 - j z^{-1} - z^{-2} + j z^{-3} \right) \\
H_{3}(z) = V_{4}^{3} \tilde{H}_{3}(z) = -j \tilde{H}_{2}(z)
\end{cases}$$
(28)

以上の結果より導き出されるフィルタバンク構成を**図 18.6** に 示す。また,式 (25) ~式 (28) の各信号解析 DF の振幅特性は, $z=e^{i2\pi T}$  を代入して絶対値を計算することにより,



$$\begin{aligned} \left| H_{\ell} \left( \mathbf{e}^{j2\pi fT} \right) \right| &= \left| V_{4}^{\ell} \tilde{H}_{\ell} \left( \mathbf{e}^{j2\pi fT} \right) \right| \\ &= \underbrace{\left| V_{4}^{\ell} \right|}_{\mathbf{1}} \left| \tilde{H}_{\ell} \left( \mathbf{e}^{j2\pi fT} \right) \right| = \left| \tilde{H}_{\ell} \left( \mathbf{e}^{j2\pi fT} \right) \right| \quad \cdots \quad (29) \end{aligned}$$

で求められる(図18.7).

図 18.7 より、各信号解析 DF の振幅特性の特徴は、

 $\tilde{H}_{o}(z)$ :ローパス(低域通過)フィルタ

 $ilde{H}_{*}(z)$ : バンドパス (帯域通過) フィルタ

 $\tilde{H}_{o}(z)$  : ハイパス (高域通過) フィルタ

 $\tilde{H}_{a}(z)$ :バンドエリミネーション(帯域阻止)フィルタ

であり、DFT値の計算が周波数成分ごとに信号分解するためのフィルタバンクと等価なシステムであることもわかる。

### IDFT のフィルタバンク構成

ここでは、DFT の逆変換である IDFT も、DFT と同様に フィルタバンク構成できることを示す。

いま,N個の周波数成分である DFT 値を  $\left\{G_\ell\right\}_{\ell=0}^{\ell=N-1}$  とすれば,IDFT は  $n=0,\ 1,\ 2,\ ...,\ (N-1)$  に対して,

$$x_n = G_0 + G_1 W_N^{-n} + G_2 W_N^{-2n} + \dots + G_{N-1} W_N^{-(N-1)n}$$
 · · · · · (30) と与えられる。ここで、式(8)の関係から、式(30)は、

$$x_n = G_0 + G_1 V_N^n + G_2 V_N^{2n} + \dots + G_{N-1} V_N^{(N-1)n}$$
 .....(31)

#### 〔図 18.9〕 IDFT のフィルタバンク構成



〔図 18.11〕DCT 値 *C*₀<sup>(2)</sup>の計算処理の流れ



と別表現され、ディジタルシステムとして実現できる(図18.8、 前頁). 図18.8のディジタルシステムは元のディジタル信号を 再合成する働きをすることから、ここでは合成ディジタルフィ ルタ(以後、合成 DF と記す)と呼ぶことにする.

また、図 18.8 の合成 DF の構成は図 18.2 の信号解析 DF の構 成に示す点線内のブロックと同じものになっていることもわかる. 一例として、N=4サンプルに対する IDFT のフィルタバン ク構成を示す(図 18.9). なお、図 18.9 の各合成 DF の出力は、

式(31)に基づき、式(20)を適用して、

#### 〔図 18.10〕 DCT 値 C<sub>n</sub><sup>(2)</sup>の算出ディジタルフィルタの構成



$$\begin{cases} x_0 = G_0 + G_1 + G_2 + G_3 \\ x_1 = G_0 + G_1 V_4^{\ 1} + G_2 V_4^{\ 2} + G_3 V_4^{\ 3} \\ = G_0 + j G_1 - G_2 - j G_3 \\ x_2 = G_0 + G_1 V_4^{\ 2} + G_2 V_4^{\ 4} + G_3 V_4^{\ 6} \\ = G_0 - G_1 + G_2 - G_3 \\ x_3 = G_0 + G_1 V_4^{\ 3} + G_2 V_4^{\ 6} + G_3 V_4^{\ 9} \\ = G_0 - j G_1 - G_2 + j G_3 \end{cases}$$

と表される。

#### DCTの分析フィルタバンク構成

手始めに DCT とディジタルフィルタとの相互関係をイメー ジしてもらうことを目的として、N=2サンプルのディジタル 信号 $\{x_n\}_{n=0}^{n=1}$  に対する DCT を例に説明する.

まず、DCT は次式で与えられる.

$$C_0^{(2)} = \frac{1}{2} \left[ x_0 + x_1 \right]$$
 (33)  
$$C_1^{(2)} = \frac{1}{2} \left[ x_0 \left\{ \sqrt{2} \cos \left( \frac{\pi}{4} \right) \right\} + x_1 \left\{ \sqrt{2} \cos \left( \frac{3\pi}{4} \right) \right\} \right]$$
  
$$= \frac{1}{2} \left[ x_0 - x_1 \right]$$
 (34)

ところで、式(33)はディジタルフィルタとして図18.10のよ うに構成され、出力 yn<sup>(o)</sup> は、

$$y_n^{(0)} = \frac{1}{2} \left\{ x_n + x_{n-1} \right\}$$
 .....(35)

の DCT 値を意味しており、n=1 に対する出力値は、

$$y_1^{(0)} = \frac{1}{2} \{ x_1 + x_0 \} = \tilde{C}_1^{(0)} = C_0^{(2)}$$
 (37)

であるので,式 (33) の DCT 値が得られることになる

さらに続けて, n=2, 3, 4, …と計算を進めていくと,

$$\begin{cases} y_{2}^{(0)} = \frac{1}{2} \left\{ x_{2} + x_{1} \right\} = \tilde{C}_{2}^{(0)} \\ y_{3}^{(0)} = \frac{1}{2} \left\{ x_{3} + x_{2} \right\} = \tilde{C}_{3}^{(0)} \\ y_{4}^{(0)} = \frac{1}{2} \left\{ x_{4} + x_{3} \right\} = \tilde{C}_{4}^{(0)} \\ \vdots \end{cases}$$

$$(38)$$

## やり直しのための信号数学₹

#### 〔図 18.12〕 DCT 値 *C*<sub>1</sub><sup>(2)</sup> の算出ディジタルフィルタの構成



となり、DCT 値が次々にフィルタ出力されることがわかる。 同様に、式(34) はディジタルフィルタとして $\mathbf{28.12}$  のよう

に構成され、出力 $\gamma_n^{(1)}$ は、

$$y_n^{(1)} = \frac{1}{2} \left\{ -x_n + x_{n-1} \right\} = (-1) \times \frac{1}{2} \left\{ x_n - x_{n-1} \right\}$$
 (39)

であり,

$$y_n^{(1)} = \tilde{C}_n^{(1)}$$
 (40)

となるので  $\ell=1$  に対する DCT 値を算出できることがわかる (図 **18.13**). ただし、 $\tilde{C}_n^{(1)}$  はディジタル信号  $\left\{x_n, x_{n-1}\right\}$  の  $\ell=1$  の DCT 値を意味しており、n=1 に対する出力値は、

$$y_1^{(1)} = (-1) \times \frac{1}{2} \{x_1 - x_0\} = \tilde{C}_1^{(1)} = C_0^{(2)} \quad \cdots \quad (41)$$

であるので、式(34)の DCT 値が得られることになる.

さらに続けて、n=2, 3, 4, …と計算を進めていくと,

$$\begin{cases} y_{2}^{(1)} = (-1) \times \frac{1}{2} \{x_{2} - x_{1}\} = \tilde{C}_{2}^{(1)} \\ y_{3}^{(1)} = (-1) \times \frac{1}{2} \{x_{3} - x_{2}\} = \tilde{C}_{3}^{(1)} \\ y_{4}^{(1)} = (-1) \times \frac{1}{2} \{x_{4} - x_{3}\} = \tilde{C}_{4}^{(1)} \end{cases}$$
(42)

となり、DCT 値が次々にフィルタ出力されることがわかる. ここで、式 (35)、式 (39) の差分方程式の両辺をz変換してDCT 計算のディジタルフィルタの伝達関数はそれぞれ、

$$H_1(z) = (-1) \times \left[\frac{1}{2}(1-z^{-1})\right] \quad \cdots \qquad (44)$$

と表される.

以上より、式 (43)、式 (44)の伝達関数の ( ) の中の z に関する多項式の係数値が、それぞれ直交基底ベクトル、すなわち、

$$\phi^{(0)} = \{1, 1\}$$

$$\phi^{(1)} = \left\{ \sqrt{2} \cos\left(\frac{\pi}{4}\right), \sqrt{2} \cos\left(\frac{3\pi}{4}\right) \right\} = \{1, -1\}$$

の各要素値に一致し、しかも**図 18.10** と**図 18.12** におけるディジタルフィルタのタップ係数になるのである。もちろん、式 (43)、式 (44)を整理して、

〔図 18.13〕 DCT 値 C<sub>1</sub><sup>(2)</sup>の計算処理の流れ・



〔図 18.14〕 DCT のフィルタバンク構成 (N = 2) -



$$H_1(z) = -\frac{1}{2} + \frac{1}{2}z^{-1}$$
 (46)

と表すことにより、**図 18.14** のようにフィルタバンクを構成することができる.

次に、**図 18.14** の二つのディジタルフィルタの振幅特性を計算しておこう. 振幅特性は、伝達関数において $z=e^{i2\pi fT}$ を代入して絶対値を計算すればよく、

と求められる(図 18.15). 図 18.15(a)より、 $\ell=0$ に対する

[図 18.15] 各分析ディジタルフィルタの振幅特性 (N = 2)



[図 18.16] 分析ディジタルフィルタの構成 (N = 4) =



$$\begin{split} \ell &= 0 \, \mathcal{O} \, \succeq \, \tilde{\Xi}, \quad \phi_0{}^{(0)} = \phi_1{}^{(0)} = \phi_2{}^{(0)} = \phi_3{}^{(0)} = 1 \\ \ell &= 0 \, \mathcal{O} \, \succeq \, \tilde{\Xi}, \quad \phi_0{}^{(\ell)} = \sqrt{2} \, \cos \left(\frac{\ell \, \pi}{8}\right), \quad \phi_1{}^{(\ell)} = \sqrt{2} \, \cos \left(\frac{3 \, \ell \, \pi}{8}\right) \\ \phi_2{}^{(\ell)} &= \sqrt{2} \, \cos \left(\frac{5 \, \ell \, \pi}{8}\right), \quad \phi_3{}^{(\ell)} = \sqrt{2} \, \cos \left(\frac{7 \, \ell \, \pi}{8}\right) \end{split}$$

DCT 値を出力する振幅特性  $\left|H_{0}\left(e^{j2\pi fT}\right)\right|$  は低い周波数成分が通りやすい"ローパスフィルタ",他方  $\ell=1$  に対する DCT 値を出力する振幅特性  $\left|H_{1}\left(e^{j2\pi fT}\right)\right|$  は図 **18.15** (**b**) より,高い周波数成分が通りやすい"ハイパスフィルタ"であることがわかる.

したがって、DCT 計算を実現する**図 18.14** のフィルタバンクは周波数帯域ごとのスペクトル成分を抽出する働きを有しており、ここでは分析ディジタルフィルタ(以後、分析 DF と記す)と呼ぶことにする。なお、分析フィルタバンクの出力(DCT 値)はサブバンド信号とよばれ、応用によってさまざまな処理が施される。また、同じサンプル数に対して、DCT の周波数分解能が DFT の 2 倍に細かくなること [式 (1) 中の  $\Delta f$  の半分、すなわち  $\Delta f/2$ ] も記憶に留めておいてもらいたい。

#### 例題2

式(47), (48)の振幅特性を,式(45),式(46)より計算して 導き出せ.

#### 解答2

$$\begin{split} &H_{o}\left(e^{j2\pi fT}\right) = \frac{1 + e^{-j2\pi jT}}{2} = e^{-j\pi fT} \times \frac{e^{\pi fT} + e^{-j\pi fT}}{2} \\ &= e^{-j\pi fT} \times \frac{\left\{\cos(\pi fT) + j\sin(\pi fT)\right\} + \left\{\cos(\pi fT) - j\sin(\pi fT)\right\}}{2} \\ &= e^{-j\pi fT} \times \cos(\pi fT) \end{split}$$

よって、上式の絶対値を採って、 $\left|\mathbf{e}^{-i\mu T}\right|$ =1 であることを考慮すれば、



$$|H_0(e^{j2\pi fT})| = |\underbrace{e^{-j\pi fT}}_{1}| \times |\cos(\pi fT)| = |\cos(\pi fT)|$$

となる。同様に

$$\begin{split} &H_{1}\left(e^{j2\pi fT}\right) = \frac{1 - e^{-j2\pi fT}}{2} = e^{-j\pi fT} \times \frac{e^{\pi fT} - e^{-j\pi fT}}{2} \\ &= e^{-j\pi fT} \times \frac{\left\{\cos(\pi fT) + j\sin(\pi fT)\right\} - \left\{\cos(\pi fT) - j\sin(\pi fT)\right\}}{2} \\ &= je^{-j\pi fT} \times \sin(\pi fT) \end{split}$$

となり、上式の絶対値を採って、|j|=1、 $|e^{-j\pi fT}|=1$  であることを考慮すれば、

$$\left| H_1 \left( e^{j2\pi fT} \right) \right| = \underbrace{\left| j \right|}_{1} \times \underbrace{\left| e^{-j\pi fT} \right|}_{1} \times \left| \sin(\pi fT) \right| = \left| \sin(\pi fT) \right|$$

という振幅特性が導かれる.

次は、少々本格的にN=4 サンプルのディジタル信号 $\left\{x_n\right\}_{n=0}^{n=3}$  に対する DCT 計算を考えてみたい。DCT 値は、次式で与えられる.

$$C_0^{(4)} = \frac{1}{4} [x_0 + x_1 + x_2 + x_3]$$
 ....(49)

$$C_{1}^{(4)} = \frac{1}{4} \left[ x_{0} \left\{ \sqrt{2} \cos \left( \frac{\pi}{8} \right) \right\} + x_{1} \left\{ \sqrt{2} \cos \left( \frac{3\pi}{8} \right) \right\} + x_{2} \left\{ \sqrt{2} \cos \left( \frac{5\pi}{8} \right) \right\} + x_{3} \left\{ \sqrt{2} \cos \left( \frac{7\pi}{8} \right) \right\} \right] \dots (50)$$

$$C_{2}^{(4)} = \frac{1}{4} \left[ x_{0} \left\{ \sqrt{2} \cos \left( \frac{2\pi}{8} \right) \right\} + x_{1} \left\{ \sqrt{2} \cos \left( \frac{6\pi}{8} \right) \right\} + x_{2} \left\{ \sqrt{2} \cos \left( \frac{10\pi}{8} \right) \right\} + x_{3} \left\{ \sqrt{2} \cos \left( \frac{14\pi}{8} \right) \right\} \right]$$

$$= \frac{1}{4} \left[ x_{0} - x_{1} - x_{2} + x_{3} \right] \qquad \cdots (51)$$

$$C_{3}^{(4)} = \frac{1}{4} \left[ x_{0} \left\{ \sqrt{2} \cos \left( \frac{3\pi}{8} \right) \right\} + x_{1} \left\{ \sqrt{2} \cos \left( \frac{9\pi}{8} \right) \right\} + x_{2} \left\{ \sqrt{2} \cos \left( \frac{15\pi}{8} \right) \right\} + x_{3} \left\{ \sqrt{2} \cos \left( \frac{21\pi}{8} \right) \right\} \right] \cdots (52)$$

このとき、式(49)~式(52)の ${}$ }の中は直交基底ベクトルの各要素値、すなわち、

## やり直しのための信号数学

$$\phi^{(0)} = \left\{ 1, 1, 1, 1 \right\} 
\phi^{(1)} = \left\{ \sqrt{2} \cos\left(\frac{\pi}{8}\right), \sqrt{2} \cos\left(\frac{3\pi}{8}\right), \\
\sqrt{2} \cos\left(\frac{5\pi}{8}\right), \sqrt{2} \cos\left(\frac{7\pi}{8}\right) \right\} 
\phi^{(2)} = \left\{ \sqrt{2} \cos\left(\frac{2\pi}{8}\right), \sqrt{2} \cos\left(\frac{6\pi}{8}\right), \\
\sqrt{2} \cos\left(\frac{9\pi}{8}\right), \sqrt{2} \cos\left(\frac{14\pi}{8}\right) \right\} 
\phi^{(3)} = \left\{ \sqrt{2} \cos\left(\frac{3\pi}{8}\right), \sqrt{2} \cos\left(\frac{9\pi}{8}\right), \\
\sqrt{2} \cos\left(\frac{15\pi}{8}\right), \sqrt{2} \cos\left(\frac{21\pi}{8}\right) \right\}$$

に一致していることに気づかれた人もおられると思う。よって、 直交基底ベクトル $\mathbf{\phi}^{(\ell)}$  について、各要素値を、

$$\phi^{(\ell)} = \{\phi_0^{(\ell)}, \phi_1^{(\ell)}, \phi_2^{(\ell)}, \phi_3^{(\ell)}\}$$
 .....(54)  
と表せば,DCT 値を出力するディジタルフィルタの構成は**図**  
**18.16** のようになり,出力 $\gamma_n^{(\ell)}$ は,

であり,

$$y_n^{(\ell)} = \tilde{C}_n^{(\ell)} \qquad (56)$$

となるので、 $\ell$  に対する DCT 値を算出できることがわかる (**図 18.17**). ただし、 $\tilde{C}_n^{(\ell)}$  は  $t=nT[\mathfrak{P}]$  における 4 サンプルのディジタル信号  $\left\{x_n, x_{n-1}, x_{n-2}, x_{n-3}\right\}$  の DCT 値を表しており、n=3 に対する出力値は、

$$y_{3}^{(\ell)} = (-1)^{\ell} \times \left[ \frac{1}{4} \left\{ \phi_{0}^{(\ell)} x_{3} + \phi_{1}^{(\ell)} x_{2} + \phi_{2}^{(\ell)} x_{1} + \phi_{3}^{(\ell)} x_{0} \right\} \right]$$

$$= \tilde{C}_{2}^{(\ell)} = C_{\ell}^{(4)} \qquad (57)$$

であるので、式(49)~式(52)のDCT値が得られることになる。 さらに続けて、n=4、5、6、…と計算を進めていくと、

$$\left\{ \begin{aligned} y_{_{4}}^{(\ell)} &= \left(-\mathbf{1}\right)^{\ell} \times \left[\frac{1}{4} \left\{\phi_{_{0}}^{(\ell)} x_{_{4}} + \phi_{_{1}}^{(\ell)} x_{_{3}} + \phi_{_{2}}^{(\ell)} x_{_{2}} + \phi_{_{3}}^{(\ell)} x_{_{1}} \right\} \right] &= \tilde{C}_{_{4}}^{(\ell)} \\ y_{_{5}}^{(\ell)} &= \left(-\mathbf{1}\right)^{\ell} \times \left[\frac{1}{4} \left\{\phi_{_{0}}^{(\ell)} x_{_{5}} + \phi_{_{1}}^{(\ell)} x_{_{4}} + \phi_{_{2}}^{(\ell)} x_{_{3}} + \phi_{_{3}}^{(\ell)} x_{_{2}} \right\} \right] &= \tilde{C}_{_{5}}^{(\ell)} \\ y_{_{6}}^{(\ell)} &= \left(-\mathbf{1}\right)^{\ell} \times \left[\frac{1}{4} \left\{\phi_{_{0}}^{(\ell)} x_{_{6}} + \phi_{_{1}}^{(\ell)} x_{_{5}} + \phi_{_{2}}^{(\ell)} x_{_{4}} + \phi_{_{3}}^{(\ell)} x_{_{3}} \right\} \right] &= \tilde{C}_{_{6}}^{(\ell)} \\ &\vdots \end{aligned} \right.$$

となり、DCT 値が次々にフィルタ出力されることがわかる. 次に、式 (55) の差分方程式の両辺をz変換して DCT 計算のディジタルフィルタの伝達関数は、

〔図 18.17〕分析ディジタルフィルタの伝達関数 (N = 4)



と表される.

以上より、  $\P B 3$  の各分析 DF の伝達関数の $\{\}$ の中のz に関する多項式の係数値が、式(53) の直交基底ベクトル  $\{\phi^{(i)}\}_{\ell=0}^{\ell=3}$  の各要素値から算出された値に一致し、しかも  $\boxtimes$  **18.17** におけるディジタルフィルタのタップ係数になる。

#### 例題3

N = 4 サンプルのディジタル信号の DCT 値を出力する分析フィルタバンクの全体構成、および各分析 DF の振幅特性を示せ、

#### 解答3)

式 (53), 式 (59) に基づき,分析 DF の伝達関数  $\left\{H_{\ell}(z)\right\}_{\ell=0}^{\ell=3}$ を計算する.

$$\begin{split} H_0(z) &= \frac{1}{4} \Big( 1 + z^{-1} + z^{-2} + z^{-3} \Big) \\ H_1(z) &= (-1) \times \left[ \frac{\sqrt{2}}{4} \left\{ \cos \left( \frac{\pi}{8} \right) + \cos \left( \frac{3\pi}{8} \right) z^{-1} + \cos \left( \frac{5\pi}{8} \right) z^{-2} \right. \right. \\ &\quad + \cos \left( \frac{7\pi}{8} \right) z^{-3} \right\} \right] \\ &= \frac{\sqrt{2}}{4} \left\{ -\cos \left( \frac{\pi}{8} \right) - \cos \left( \frac{3\pi}{8} \right) z^{-1} \right. \\ &\quad + \cos \left( \frac{3\pi}{8} \right) z^{-2} + \cos \left( \frac{\pi}{8} \right) z^{-3} \right\} \\ H_2(z) &= \frac{\sqrt{2}}{4} \left\{ \cos \left( \frac{2\pi}{8} \right) + \cos \left( \frac{6\pi}{8} \right) z^{-1} + \cos \left( \frac{10\pi}{8} \right) z^{-2} \right. \\ &\quad + \cos \left( \frac{14\pi}{8} \right) z^{-3} \right\} \\ &= \frac{1}{4} \Big( 1 - z^{-1} - z^{-2} + z^{-3} \Big) \\ H_3(z) &= (-1) \times \left[ \frac{\sqrt{2}}{4} \left\{ \cos \left( \frac{3\pi}{8} \right) + \cos \left( \frac{9\pi}{8} \right) z^{-1} + \cos \left( \frac{15\pi}{8} \right) z^{-2} \right. \\ &\quad + \cos \left( \frac{21\pi}{8} \right) z^{-3} \right\} \right] \\ &= \frac{\sqrt{2}}{4} \left\{ -\cos \left( \frac{3\pi}{8} \right) + \cos \left( \frac{\pi}{8} \right) z^{-1} \right. \\ &\quad - \cos \left( \frac{\pi}{8} \right) z^{-2} + \cos \left( \frac{3\pi}{8} \right) z^{-3} \right\} \end{split}$$



(a) 分析フィルタバンク

以上より、フィルタバンク構成を**図 18.18(a)** に、各分析 DF の振幅特性を**図 18.18(b)** に示す.

### IDCT の合成フィルタバンク構成

ところで、周波数帯域ごとに分解されたスペクトル値から元のディジタル信号を再合成するには、DCTの逆変換としてのIDCT を実行すればよいことは明白であろう。DCTの例示として用いたN=4 サンプルの場合について、IDCT のフィルタバンク構成を説明する。

いま,DCT値を $\left\{C_\ell^{(4)}
ight\}_{\ell=0}^{\ell=3}$ とすれば,IDCTは,

$$\begin{cases} x_0 = C_0^{(4)} + \sqrt{2}\cos\left(\frac{\pi}{8}\right)C_1^{(4)} + \sqrt{2}\cos\left(\frac{2\pi}{8}\right)C_2^{(4)} \\ + \sqrt{2}\cos\left(\frac{3\pi}{8}\right)C_3^{(4)} \end{cases} \\ x_1 = C_0^{(4)} + \sqrt{2}\cos\left(\frac{3\pi}{8}\right)C_1^{(4)} + \sqrt{2}\cos\left(\frac{6\pi}{8}\right)C_2^{(4)} \\ + \sqrt{2}\cos\left(\frac{9\pi}{8}\right)C_3^{(4)} \end{cases} \\ x_2 = C_0^{(4)} + \sqrt{2}\cos\left(\frac{5\pi}{8}\right)C_1^{(4)} + \sqrt{2}\cos\left(\frac{10\pi}{8}\right)C_2^{(4)} \cdots (60) \\ + \sqrt{2}\cos\left(\frac{15\pi}{8}\right)C_3^{(4)} \end{cases} \\ x_3 = C_0^{(4)} + \sqrt{2}\cos\left(\frac{7\pi}{8}\right)C_1^{(4)} + \sqrt{2}\cos\left(\frac{14\pi}{8}\right)C_2^{(4)} \\ + \sqrt{2}\cos\left(\frac{21\pi}{8}\right)C_3^{(4)} \end{cases}$$

と表される. また,式(53)と式(54)の直交基底ベクトルの要素値を用いると,式(60)のIDCTは,



$$x_{0} = \phi_{0}^{(0)}C_{0}^{(4)} + \phi_{0}^{(1)}C_{1}^{(4)} + \phi_{0}^{(2)}C_{2}^{(4)} + \phi_{0}^{(3)}C_{3}^{(4)}$$

$$x_{1} = \phi_{1}^{(0)}C_{0}^{(4)} + \phi_{1}^{(1)}C_{1}^{(4)} + \phi_{1}^{(2)}C_{2}^{(4)} + \phi_{1}^{(3)}C_{3}^{(4)}$$

$$x_{2} = \phi_{2}^{(0)}C_{0}^{(4)} + \phi_{2}^{(1)}C_{1}^{(4)} + \phi_{2}^{(2)}C_{2}^{(4)} + \phi_{2}^{(3)}C_{3}^{(4)}$$

$$x_{3} = \phi_{3}^{(0)}C_{0}^{(4)} + \phi_{3}^{(1)}C_{1}^{(4)} + \phi_{3}^{(2)}C_{2}^{(4)} + \phi_{3}^{(3)}C_{3}^{(4)}$$

$$\cdots (61)$$

と別表現できる.

以上より、IDCT 値を出力するディジタルフィルタの構成は **図 18.19** のようになり、出力 $\{x_{n-3}, x_{n-2}, x_{n-1}, x_n\}$ は、

$$\begin{cases} x_{n} = \phi_{0}^{(0)} \tilde{C}_{n}^{(0)} + \phi_{0}^{(1)} \tilde{C}_{n}^{(1)} + \phi_{0}^{(2)} \tilde{C}_{n}^{(2)} + \phi_{0}^{(3)} \tilde{C}_{n}^{(3)} \\ x_{n-1} = \phi_{1}^{(0)} \tilde{C}_{n}^{(0)} + \phi_{1}^{(1)} \tilde{C}_{n}^{(1)} + \phi_{1}^{(2)} \tilde{C}_{n}^{(2)} + \phi_{1}^{(3)} \tilde{C}_{n}^{(3)} \\ x_{n-2} = \phi_{2}^{(0)} \tilde{C}_{n}^{(0)} + \phi_{2}^{(1)} \tilde{C}_{n}^{(1)} + \phi_{2}^{(2)} \tilde{C}_{n}^{(2)} + \phi_{2}^{(3)} \tilde{C}_{n}^{(3)} \\ x_{n-3} = \phi_{3}^{(0)} \tilde{C}_{n}^{(0)} + \phi_{3}^{(1)} \tilde{C}_{n}^{(1)} + \phi_{3}^{(2)} \tilde{C}_{n}^{(2)} + \phi_{3}^{(3)} \tilde{C}_{n}^{(3)} \end{cases}$$
(62)

であり、DCT 値  $\left\{\tilde{C}_{n}^{(\ell)}\right\}_{\ell=0}^{\ell=3}$  から元のディジタル信号 $\{x_{n-3}, x_{n-2}, x_{n-1}, x_n\}$ が得られることがわかる.

たとえば、t=nT [秒] における 4 サンプルのディジタル信号  $\{x_{n-3},\,x_{n-2},\,x_{n-1},\,x_n\}$ に対する DCT 値が  $\left\{\tilde{C}_n^{\,(0)}\,,\,\tilde{C}_n^{\,(1)}\,,\,\tilde{C}_n^{\,(2)}\,,\,\tilde{C}_n^{\,(3)}\right\}$  であり、n=3 に対する出力値は、

$$\begin{cases} x_{0} = \phi_{0}^{(0)} \tilde{C}_{3}^{(0)} + \phi_{0}^{(1)} \tilde{C}_{3}^{(1)} + \phi_{0}^{(2)} \tilde{C}_{3}^{(2)} + \phi_{0}^{(3)} \tilde{C}_{3}^{(3)} \\ x_{1} = \phi_{1}^{(0)} \tilde{C}_{3}^{(0)} + \phi_{1}^{(1)} \tilde{C}_{3}^{(1)} + \phi_{1}^{(2)} \tilde{C}_{3}^{(2)} + \phi_{1}^{(3)} \tilde{C}_{3}^{(3)} \\ x_{2} = \phi_{2}^{(0)} \tilde{C}_{3}^{(0)} + \phi_{2}^{(1)} \tilde{C}_{3}^{(1)} + \phi_{2}^{(2)} \tilde{C}_{3}^{(2)} + \phi_{2}^{(3)} \tilde{C}_{3}^{(3)} \\ x_{3} = \phi_{3}^{(0)} \tilde{C}_{3}^{(0)} + \phi_{3}^{(1)} \tilde{C}_{3}^{(1)} + \phi_{3}^{(2)} \tilde{C}_{3}^{(2)} + \phi_{3}^{(3)} \tilde{C}_{3}^{(3)} \end{cases}$$

$$(63)$$

## やり直しのための信号数学

であるので、元のディジタル信号が得られることになる. さらに続けて、n=4, 5, …と計算を進めていくと、

1) n = 4のとき

$$\begin{cases} x_1 = \phi_0^{(0)} \tilde{C}_4^{(0)} + \phi_0^{(1)} \tilde{C}_4^{(1)} + \phi_0^{(2)} \tilde{C}_4^{(2)} + \phi_0^{(3)} \tilde{C}_4^{(3)} \\ x_2 = \phi_1^{(0)} \tilde{C}_4^{(0)} + \phi_1^{(1)} \tilde{C}_4^{(1)} + \phi_1^{(2)} \tilde{C}_4^{(2)} + \phi_1^{(3)} \tilde{C}_4^{(3)} \\ x_3 = \phi_2^{(0)} \tilde{C}_4^{(0)} + \phi_2^{(1)} \tilde{C}_4^{(1)} + \phi_2^{(2)} \tilde{C}_4^{(2)} + \phi_2^{(3)} \tilde{C}_4^{(3)} \\ x_4 = \phi_3^{(0)} \tilde{C}_4^{(0)} + \phi_3^{(1)} \tilde{C}_4^{(1)} + \phi_3^{(2)} \tilde{C}_4^{(2)} + \phi_3^{(3)} \tilde{C}_4^{(3)} \end{cases}$$
 (64)

2) n=5のとき

$$\begin{cases} x_2 = \phi_0^{(0)} \tilde{C}_5^{(0)} + \phi_0^{(1)} \tilde{C}_5^{(1)} + \phi_0^{(2)} \tilde{C}_5^{(2)} + \phi_0^{(3)} \tilde{C}_5^{(3)} \\ x_3 = \phi_1^{(0)} \tilde{C}_5^{(0)} + \phi_1^{(1)} \tilde{C}_5^{(1)} + \phi_1^{(2)} \tilde{C}_5^{(2)} + \phi_1^{(3)} \tilde{C}_5^{(3)} \\ x_4 = \phi_2^{(0)} \tilde{C}_5^{(0)} + \phi_2^{(1)} \tilde{C}_5^{(1)} + \phi_2^{(2)} \tilde{C}_5^{(2)} + \phi_2^{(3)} \tilde{C}_5^{(3)} \\ x_5 = \phi_3^{(0)} \tilde{C}_5^{(0)} + \phi_3^{(1)} \tilde{C}_5^{(1)} + \phi_3^{(2)} \tilde{C}_5^{(2)} + \phi_3^{(3)} \tilde{C}_5^{(3)} \end{cases}$$
 (65)

となり、元のディジタル信号がフィルタ出力されることがわかる。ここで、**図 18.19** に示すフィルタバンクの各合成 DF のタップ係数は、式 (53) の直交基底ベクトル $\left\{ oldsymbol{\phi}^{(\ell)} \right\}_{\ell=0}^{\ell=3}$  の各要素値 $\left\{ oldsymbol{\phi}_{\ell}^{(\ell)} \right\}_{\ell=0}^{\ell=3}$  に一致するのである。具体的には、以下のようになる。

① xn を出力する合成 DF のタップ係数

$$\begin{aligned} & \left\{ \phi_0^{(0)}, \phi_0^{(1)}, \phi_0^{(2)}, \phi_0^{(3)} \right\} \\ & = \left\{ 1, \sqrt{2} \cos \left( \frac{\pi}{8} \right), \sqrt{2} \cos \left( \frac{2\pi}{8} \right), \sqrt{2} \cos \left( \frac{3\pi}{8} \right) \right\} \end{aligned}$$

②  $x_{n-1}$ を出力する合成 DF のタップ係数  $\left\{\phi_{1}^{(0)},\phi_{1}^{(1)},\phi_{1}^{(2)},\phi_{1}^{(3)}\right\}$ 

$$= \left\{ 1, \sqrt{2} \cos \left( \frac{3\pi}{8} \right), \sqrt{2} \cos \left( \frac{6\pi}{8} \right), \sqrt{2} \cos \left( \frac{9\pi}{8} \right) \right\}$$

③  $x_{n-2}$ を出力する合成 DF のタップ係数  $\left\{\phi_{2}^{(0)},\phi_{2}^{(1)},\phi_{2}^{(2)},\phi_{2}^{(3)}\right\}$ 

$$= \left\{1, \sqrt{2}\cos\left(\frac{5\pi}{8}\right), \sqrt{2}\cos\left(\frac{10\pi}{8}\right), \sqrt{2}\cos\left(\frac{15\pi}{8}\right)\right\}$$

②  $x_{n-3}$ を出力する合成 DF のタップ係数

$$\left\{\phi_{3}^{(0)}, \phi_{3}^{(1)}, \phi_{3}^{(2)}, \phi_{3}^{(3)}\right\}$$

$$\left[\sqrt{2} - (7\pi) \sqrt{2} - (14\pi) \sqrt{2} - (21\pi)\right]$$

 $= \left\{ 1, \sqrt{2} \cos\left(\frac{7\pi}{8}\right), \sqrt{2} \cos\left(\frac{14\pi}{8}\right), \sqrt{2} \cos\left(\frac{21\pi}{8}\right) \right\}$ 

である。

### DCT, IDCT のフィルタバンク構成

DCT と IDCT は、それぞれ分析フィルタバンク、合成フィルタバンクとして構成されることを説明した。N=4サンプルのディジタル信号に対する DCT、IDCT は、4 サンプルを 1 ブロックとして、ブロックごとの一括処理により実現できることが類推される。 すなわち、4 サンプルごとに DCT と IDCT の処理をすれば十分であり、n=3、7、11、…の時点で変換値を算出することになる。

それでは、具体的な変換処理の流れを示すことにしよう. DCT と IDCT のフィルタバンク構成を、それぞれ**図 18.20**, 〔図 18.19〕 IDCT の合成フィルタバンクの構成 (N = 4)



**図 18.21** に示す. **図 18.20** と**図 18.21** のフィルタバンクに基づく DCT と IDCT は、それぞれ次式で計算することに等価である.

DCTの計算式

$$\begin{aligned} & C_0^{(4)} = 0.25x_0 + 0.25x_1 + 0.25x_2 + 0.25x_3 \\ & C_1^{(4)} = 0.3266x_0 + 0.1353x_1 - 0.1353x_2 - 0.3266x_3 \\ & C_2^{(4)} = 0.25x_0 - 0.25x_1 - 0.25x_2 + 0.25x_3 \\ & C_3^{(4)} = 0.1353x_0 - 0.3266x_1 + 0.3266x_2 - 0.1353x_3 \end{aligned}$$

• IDCT の計算式

$$\begin{cases} x_0 = C_0^{(4)} + 1.3065C_1^{(4)} + C_2^{(4)} + 0.5411C_3^{(4)} \\ x_1 = C_0^{(4)} + 0.5411C_1^{(4)} - C_2^{(4)} - 1.3065C_3^{(4)} \\ x_2 = C_0^{(4)} - 0.5411C_1^{(4)} - C_2^{(4)} + 1.3065C_3^{(4)} \\ x_3 = C_0^{(4)} - 1.3065C_1^{(4)} + C_2^{(4)} - 0.5411C_3^{(4)} \end{cases}$$
 (67)

いま、入力ディジタル信号系列が、

1, 2, 3, 4, 5, 5, 5, 5, 4, 3, 2, 1, ... としよう. 以下に, 式(66), 式(67)によるブロックごとのDCT, IDCT の計算結果を示す.

① 1ブロック目  $(x_0 = 1, x_1 = 2, x_2 = 3, x_3 = 4)$ 

DCT

$$\begin{split} \tilde{C}_{3}^{\;(0)} &= C_{0}^{\;(4)} = 2.5 \\ \tilde{C}_{3}^{\;(1)} &= C_{1}^{\;(4)} = -1.1151 \\ \tilde{C}_{3}^{\;(2)} &= C_{2}^{\;(4)} = 0 \\ \tilde{C}_{3}^{\;(3)} &= C_{3}^{\;(4)} = -0.0793 \end{split}$$

IDCT

$$x_0 = 1$$

$$x_1 = 2$$

$$x_{2} = 3$$

#### [図 18.20] DCT のフィルタバンク構成例 [式(66)に基づく]



$$x_3 = 4$$

② 2 ブロック目 
$$(\tilde{x}_4=5\to x_0,\ \tilde{x}_5=5\to x_1,\ \tilde{x}_6=5\to x_2,\ \tilde{x}_7=5\to x_3)$$

#### • DCT

$$\tilde{C}_{7}^{(0)} = C_{0}^{(4)} = 5$$

$$\tilde{C}_{7}^{(1)} = C_{1}^{(4)} = 0$$

$$\tilde{C}_{7}^{(2)} = C_{2}^{(4)} = 0$$

$$\tilde{C}_{7}^{(3)} = C_{9}^{(4)} = 0$$

#### • IDCT

$$\tilde{x}_4 = x_0 = 5$$

$$\tilde{x}_5 = x_1 = 5$$

$$\tilde{x}_6 = x_9 = 5$$

$$\tilde{x}_7 = x_3 = 5$$

③ 3 ブロック目(
$$\tilde{x}_8=4 \rightarrow x_0$$
, $\tilde{x}_{\overline{9}}$  3  $x_{\overline{1}}$   $\tilde{x}_{10}$  2  $x_2$ ,  $\tilde{x}_{11}=1 \rightarrow x_2$ )

#### DCT

$$\tilde{C}_{11}^{(0)} = C_0^{(4)} = 2.5$$

$$\tilde{C}_{11}^{(1)} = C_1^{(4)} = 1.1151$$

$$\tilde{C}_{_{11}}^{_{~(2)}}=C_{_{2}}^{_{~(4)}}=0$$

$$\tilde{C}_{11}^{(3)} = C_3^{(4)} = 0.0793$$

#### IDCT

$$\tilde{x}_8 = x_0 = 4$$

$$\tilde{x}_{0} = x_{1} = 3$$

$$\tilde{x}_{10} = x_2 = 2$$

$$\tilde{x}_{11} = x_3 = 1$$

#### [図 18.21] IDCT のフィルタバンク構成例 [式(67)に基づく]



以上の結果からわかるように、DCT と IDCT とが相互に逆変換の関係にあり、分析と合成のフィルタバンク構成の妥当性を検証することができる.

最後に DCT と IDCT をフィルタバンク構成からの見方をまとめると、以下のようになる.

DCT: 『オーディオや画像などのディジタル信号を周波数 成分ごとに分解するためのフィルタバンク』

IDCT: 『帯域ごとに分解された周波数成分から元のディジタル信号を再合成するためのフィルタバンク』

\*

次回は、マルチレート信号処理とよばれる手法に基づき、 DCT、IDCT を実現するシステムを採り上げて、フィルタバン クの実用的な構成について解説する予定である。お楽しみに、

### x86CPUだけでもマスタしたい

# 

FPU 命令の問題

今回は、x86系の32ビット CPU がもつ浮動小数点演算命令 について、その概略とアセンブラ MASM および gas での使用 法について説明します.

#### **CPUとFPUの関係**

浮動小数点演算は、浮動小数点演算ユニット(FPU)が行い ます、FPUは、CPU本体がもつ整数演算ユニット(IU)とは独 立して存在するため、x86系の32ビットCPUは、浮動小数点 演算と整数演算を同時に実行することが可能です。つまり、プ ロセッサ内では FPU と IU は並行処理されるわけです(図1).

これまで説明してきた汎用命令の整数演算は、すべて IU で 処理されていました。しかし、独立したユニットである FPU に は、FPU専用の「FPU命令」と呼ばれる浮動小数点演算命令が 使われます。FPU命令は、正式にはインテルのマニュアル(IA-32 インテルアーキテクチャソフトウェアデベロッパーズマニュ アル) によると「x87 FPU 命令 | となっています。

この x87 とは、昔の x86 系 CPU (8086 や 8088、80286) 本体 にはなかった、浮動小数点演算を行うためのコプロセッサに付 けられた名称からきています。 Pentium 以降のプロセッサはす べて、チップ内部に浮動小数点演算ユニット(FPU)を内蔵して いるので、このコプロセッサは現在使用されていません(図2). そのため、現在のPentium4でも、多少命令は追加されていま すが、基本的な浮動小数点演算の機能は、この初期のx87コプ ロセッサとあまり変わりありません.

#### 〔図1〕IUとFPU



IUの命令とFPUの命令を同時に実行する

#### FPU 命令が扱うデー

FPU 命令では、連載第3回(2001年2月号)で説明した2進 浮動小数点で表される「単精度(4バイト長)」,「倍精度(8バイ ト長) |, 「拡張精度(10バイト長) | の三つの実数と、符号付き2 進整数の「ワード(2バイト長)」,「ショート(4バイト長)」,「ロ ング(8バイト長)」、そしてパックド BCD(10バイト長)の計七 つのデータを扱うことができます。これらのデータは、メモリ 上での記憶形式で、FPU上ではすべてがいちばん精度が高く絶 対値が大きい拡張精度で記憶, 演算されます.

アセンブラ MASM および gas では、これらデータを定義す るため. **表1**のようなディレクティブを使用します.

#### MASM の場合

MASMでは、単精度は「REAL4」、倍精度は「REAL8」、そし て拡張精度は「REAL10」のディレクティブで定義します.

REAL4. REAL8. REAL10の構文は、整数を定義するDBや DWと同じです。ただし、初期値を指定する場合、値として小 数点をもった実数を記述する必要があります。もし、初期値に 指数が必要であれば、小数点をもった実数のすぐ右に、文字E

#### (図 2)CPUとFPU



(a) 8086, 8088, 80186, 386, 486SXの場合



#### 〔表 1〕FPU 命令で使用するデータを定義するディレクティブ

| データ           | の種類  |        | MASM の<br>レクティブ | gas の<br>ディレクティブ  |        |  |
|---------------|------|--------|-----------------|-------------------|--------|--|
| - <del></del> | 単精度  | REAL4  |                 | .float<br>.single |        |  |
| 実数            | 倍精度  | REAL   | 8               | .double           |        |  |
|               | 拡張精度 | REAL:  | 10              | .tfloat           |        |  |
| 符号付き          | ワード  | SWORI  | D               | .word             | .short |  |
| 2 進整数         | ショート | SDWORD |                 | .long             | .int   |  |
|               | ロング  | DQ     | QWORD           | .quad             |        |  |
| パックド BCD      |      | DT     | TBYTE           | なし                |        |  |

と 10 の n 乗に対応する n を書きます.

実際のディレクティブ REAL4, REAL8, REAL10 の記述例 を, **リスト1**に示します.

符号付き2進整数のワード、ショート、ロングは、2進整数 を定義するディレクティブを使用します。

パックド BCD は、TBYTE のディレクティブを使用しますが、BCD で表された定数を初期値として設定することはできません。どうしても、BCD で表された定数を初期値として設定したい場合は、16 進数の表記で指定します。

#### ● gas の場合

gasでは、初期値をもったデータは、単精度は「.float」あるいは「.single」、倍精度は「.double」、そして拡張精度は

#### 〔リスト 1〕 MASM の FPU 命令の記述例



「.tfloat |のディレクティブで定義します.

.float, .single, .double, .tfloat の構文は、整数を定義する.byte や.word と同じです。ただし、初期値は小数点をもった実数で記述する必要があります。もし、初期値に指数が必要であえば、小数点をもった実数のすぐ右に、文字 E と 10 の n 乗に対応する n を書きます。

実際のディレクティブ.float, .single, .double, .tfloat の記述例をリスト2に示します. 符号付き2進整数のワード,ショート,ロングは,2進整数を定義するディレクティブを使用します. gas にはパックド BCD のための10バイトデータの定義はありません、そのため、初期値をもったパックド BCD

のデータは定義できません.

#### **FPUのレジスタ**

FPUのレジスタは**図3**(p.130)のような構成をしています. 各 レジスタは、次のような役割をもっています.

レジスタスタック(80ビット長×8本)

演算に使用する拡張精度(80 ビット長)の値を格納しておくためのレジスタが、レジスタスタックと呼ばれる8本のレジスタです。レジスタスタックは、その名のようにスタック構造をしています(**図4**, p.131).

[リスト1] MASM の FPU 命令の記述例(つづき)

```
00000096
          D8 25
                 00000000 R
                                          fsub
                                                  f4
                                                                      ST(0) < -ST(0) - f4
0000009C
          DC 25 00000008 R
                                          fsub
                                                  f8
                                                                    : ST(0) <- ST(0)-f8
                                                                    : ST(0) <- ST(0)-i2
000000A2
          DE 25 0000002C R
                                          fisub
                                                  i2
000000A8
          DA 25 0000002E R
                                          fisub
                                                  i4
                                                                    ; ST(0) <- ST(0)-i4
000000AE
          D8 E1
                                          fsub
                                                  st, st(1)
                                                                    ; ST(0) <- ST(0)-ST(1)
000000B0
                                          fsub
                                                  st(1),st
                                                                    ; ST(1) <- ST(1)-ST(0)
000000B2
          DE E9
                                          fsubp
                                                  st(1),st
                                                                    ; ST(1) <- ST(1)-ST(0); pop
000000B4
          DE E9
                                                                    ; ST(1) <- ST(1)-ST(0); pop
000000B6
          D8 2D 00000000 R
                                          fsubr
                                                  f4
                                                                    ; ST(0) <- f4-ST(0)
                                                                    ; ST(0) <- f8-ST(0)
000000BC
          DC 2D 00000008 R
                                          fsubr
                                                  f8
                                                                    ; ST(0) <- i2-ST(0)
000000002
          DE 2D 0000002C R
                                          fisubr
                                                  i 2
                                                                    ; ST(0) <- i4-ST(0)
000000C8
          DA 2D 0000002E R
                                          fisubr
                                                  i4
                                                  st.st(1)
                                                                    ; ST(0) <- ST(1)-ST(0)
000000CE
          D8 E9
                                          fsubr
000000D0
          DC E1
                                          fsubr
                                                  st(1),st
                                                                    : ST(1) <- ST(0)-ST(1)
000000D2
          DE E1
                                                                    : ST(1) <- ST(0)-ST(1): pop
                                          fsubro
                                                  st(1).st
000000D4
          DE E1
                                                                    ; ST(1) <- ST(0)-ST(1); pop
                                          fsubr
000000D6
          D8 OD 00000000 R
                                          fmul
                                                                    ; ST(0) \leftarrow ST(0) \times f4
00000DC
          DC 0D 00000008 R
                                          fmul
                                                  f8
                                                                    ; ST(0) < - ST(0) \times f8
                                                  i2
                                                                    ; ST(0) <- ST(0) × i2
000000E2
          DE 0D 0000002C R
                                          fimul
                                                                                                              オペランドに演算順
000000E8
          DA OD 0000002E R
                                          fimul
                                                  i4
                                                                    ; ST(0) \leftarrow ST(0) \times i4
                                                                                                              序があるSUBとDIV
000000EE
          D8 C9
                                          fmul
                                                  st.st(1)
                                                                    ; ST(0) \leftarrow ST(0) \times ST(1)
000000170
          DC C9
                                          fmil
                                                  st(1),st
                                                                    ; ST(1) \leftarrow ST(1) \times ST(0)
                                                                                                              はMASMとgasでオ
000000F2
          DE C9
                                          fmulp
                                                  st(1),st
                                                                    ; ST(1) <- ST(1) × ST(0); pop
                                                                                                               ペランドの指定と演
000000F4
          DE C9
                                          fmul
                                                                    ; ST(1) <- ST(1) × ST(0); pop
                                                                                                              算順序が異なるので
                                                                                                              注意
000000F6
          D8 35 00000000 R
                                          fdiv
                                                  f4
                                                                    ; ST(0) <- ST(0) ÷ f4
000000FC
          DC 35 00000008 R
                                          fdiv
                                                                    : ST(0) <- ST(0) ÷ f8
                                                  f8
00000102
          DE 35 0000002C R
                                          fidiv
                                                  i2
                                                                    ; ST(0) <- ST(0) ÷ i2
00000108
          DA 35 0000002E R
                                          fidiv
                                                  i4
                                                                    ; ST(0) <- ST(0) ÷ i4
0000010E
                                          fdiv
                                                  st, st(1)
                                                                    ; ST(0) < -ST(0) \div ST(1)
                                                                    ; ST(1) < - ST(1) \div ST(0)
00000110
          DC F9
                                          fdiv
                                                  st(1),st
                                          fdivp
00000112
          DE F9
                                                  st(1),st
                                                                    ; ST(1) <- ST(1) ÷ ST(0); pop
00000114
                                          fdiv
                                                                    ; ST(1) \leftarrow ST(1) \div ST(0); pop
          DE F9
00000116
         D8 3D 00000000 R
                                          fdivr
                                                  f4
                                                                    ; ST(0) <- f4 ÷ ST(0)
0000011C
          DC 3D 00000008 R
                                          fdivr
                                                  f8
                                                                    ; ST(0) <- f8 ÷ ST(0)
00000122
          DE 3D 0000002C R
                                          fidivr
                                                  i 2
                                                                    : ST(0) < - i2 ÷ ST(0)
                                          fidivr
00000128
          DA 3D 0000002E R
                                                  i4
                                                                    : ST(0) <- i4 ÷ ST(0)
0000012E
          D8 F9
                                          fdivr
                                                  st.st(1)
                                                                    : ST(0) <- ST(1) + ST(0)
                                          fdivr
00000130
          DC F1
                                                  st(1),st
                                                                    ; ST(1) <- ST(0) ÷ ST(1)
00000132
          DE F1
                                          fdivrp
                                                                    ; ST(1) <- ST(0) \div ST(1); pop
                                                  st(1),st
00000134
          DE F1
                                          fdivr
                                                                    ; ST(1) <- ST(0) ÷ ST(1); pop
00000136
          D8 D1
                                                  st(1)
                                                                    ; ST(0) 比較 ST(1)
00000138
                                                                    ; ST(0) 比較 ST(1)
          D8 D1
                                          fcom
                                                                                          FPIJの比較結果は、こ
0000013A
          9B DF E0
                                          fstsw
00000130
          917
                                          sahf
                                                                                          のようにしてCPUのフ
0000013E
          74 02
                                          jе
                                                  skip1
                                                                                          ラグにセットする
00000140
          D9 FA
                                          fsgrt
00000142
                                 skip1:
          D9 F2
00000142
                                          fptan
00000144
          D9 F3
                                          fpatan
00000146
          D9 F0
                                          f2xm1
00000148
0000014A
          D9 F9
                                          fyl2xp1
0000014C 9B
                                          fwait
0000014D 9B
                                          wait
                                 end
```

#### 〔リスト 2〕gas の FPU 命令の記述例

```
.data
     0000 A4709D3F
                                .float
                                           1.23,-1.23
          A4709DBF
    0008 000000D8
                        f8.
                                .double
                                           1.23e10,-1.23e10
          18E90642
          000000008
          18E906C2
    0018 7463F710
                                           1.23e-10,-1.23e-10
                        f10:
                                .tfloat
         116C3D87
          DE3F7463
          F710116C
          3D87DEBF
                                                                          浮動小数点データ(実数)は、単精度
                                                                          が.floatあるいは.single, 倍精度
    002c 0200
                        i2:
                                .word
                                        2
                                                                          が.double, 拡張精度が.tfloatの
    002e 04000000
                        i4:
                                .long
                                        4
                                                                          ディレクティブで定義する
     0032 08000000
                        i8:
                                .quad
                                        8
          00000000
10 003a 00000000
                       d10:
                               .space 10
         00000000
10
         0000
10
11
   0044 A4709D3F
                               .single
                                          1.23,-1.23
12
12
        A4709DBF
13
                       .text
15
   0000 D9C3
                               fld
                                       %st(3) ◄
                                                                   FPUのレジスタスタックは %st(i)と指定する
16
    0002 D9050000
                               flds
                                       f4
16
         0000
    0008 DD050800
                               fldl
17
                                       f8
17
        0000
    000e DB2D1800
                               fldt
                                       f10
1.8
        0000
1.8
    0014 DF052C00
                               filds
                                       12
19
         0000
19
    001a DB052E00
                               fildl
20
                                       i4
         0000
21
    0020 DF2D3200
                               fildq
                                       i8
21
         0000
22
    0026 DF253A00
                               fbld
                                       d10
22
        0000
23
24
   002c DDD3
                               fst
                                       %st(3)
    002e D9150000
25
                               fsts
                                       f4
25
        0000
    0034 DD150800
                               fstl
                                       f8
26
26
         0000
27
    003a DF152C00
                               fists
                                       i2
27
         0000
    0040 DB152E00
                               fistl
28
28
         0000
29
30
   0046 DDDB
                               fstp
                                       %st(3)
31
    0048 D91D0000
                               fstps
31
        0000
    004e DD1D0800
32
                               fstpl
                                       f8
32
        0000
   0054 DB3D1800
33
                               fstpt
                                      f10
33
        0000
    005a DF1D2C00
                               fistps i2
34
34
         0000
35
    0060 DB1D2E00
                               fistpl i4
35
         0000
36
    0066 DF3D3200
                               fistpq i8
36
         0000
37
    006c DF353A00
                               fbstp
                                       d10
37
         0000
38
   0072 D9C9
                               fxch
                                       %st(1)
39
   0074 D9C9
40
                               fxch
41
   0076 D8050000
                                                        # ST(0)+f4 -> ST(0)
                               fadds
                                       f4
42
42
         0000
    007c DC050800
                               faddl
                                       f8
                                                        # ST(0)+f8 -> ST(0)
43
         0000
43
    0082 DE052C00
                               fiadds i2
                                                        # ST(0)+i2 -> ST(0)
44
         0000
45
    0088 DA052E00
                               fiaddl i4
                                                        # ST(0)+i4 -> ST(0)
45
         0000
46
    008e D8C1
                               fadd
                                       %st(1),%st
                                                        \# ST(0)+ST(1) -> ST(0)
47
    0090 DCC1
                               fadd
                                       %st, %st(1)
                                                        \# ST(0) + ST(1) -> ST(1)
48
   0092 DEC1
                               faddp
                                       %st, %st(1)
                                                        \# ST(0)+ST(1) -> ST(1); pop
                               faddp
                                                        \# ST(0)+ST(1) -> ST(1); pop
   0094 DEC1
49
```



#### **〔リスト 2**〕 gas の FPU 命令の記述例 (つづき)

```
0096 D8250000
                                                           # ST(0)-f4 -> ST(0)
                                 fsubs
 51
          0000
 52
     009c DC250800
                                 fauhl
                                          fβ
                                                           # ST(0)-f8 -> ST(0)
 52
          0000
 53
     00a2 DE252C00
                                 fisubs i2
                                                           # ST(0)-i2 -> ST(0)
 53
          0000
     00a8 DA252E00
                                 fisubl i4
                                                           # ST(0)-i4 -> ST(0)
 54
 54
          0000
     00ae D8E1
                                 fsub
                                          %st(1),%st
                                                           # ST(0)-ST(1) -> ST(0)
 55
     00b0 DCE1
                                          %st, %st(1)
                                                           # ST(0)-ST(1) -> ST(1)
 56
                                 fsub
                                                           # ST(0)-ST(1) -> ST(1); pop
                                 fsubp
                                          %st,%st(1)
                                                           # ST(0)-ST(1) -> ST(1); pop
     00b4 DEE1
                                 fsubp
 60
     00b6 D82D0000
                                 fsubrs f4
                                                           # f4-ST(0) -> ST(0)
 60
          0000
 61
     00bc DC2D0800
                                 fsubrl f8
                                                           # f8-ST(0) -> ST(0)
 61
          0000
                                 fisubrs i2
                                                           # i2-ST(0) -> ST(0)
 62
     00c2 DE2D2C00
 62
          0000
     00c8 DA2D2E00
                                 fisubrl i4
                                                           # i4-ST(0) -> ST(0)
 63
          0000
 63
     00ce D8E9
                                 fsubr
                                          %st(1),%st
                                                           # ST(1)-ST(0) -> ST(0)
 64
 65
     00d0 DCE9
                                 fsubr
                                          %st,%st(1)
                                                           # ST(1)-ST(0) -> ST(1)
 66
     00d2 DEE9
                                 fsubrp
                                          %st, %st(1)
                                                           # ST(1)-ST(0) -> ST(1); pop
 67
                                 fsubrp
                                                           # ST(1)-ST(0) -> ST(1); pop
 68
 69
     000d6 D80D0000
                                 fmuls
                                          f4
                                                           # ST(0) × f4 -> ST(0)
 69
          0000
 70
     Onde Decomoson
                                 fmulll
                                         f8
                                                           # ST(0) x f8 -> ST(0)
                                                                                                    SUBとDIVの命令は
 70
          0000
                                                                                                    gasのオペランド指
 71
     ODe2 DEOD2COO
                                 fimuls i2
                                                           # ST(0) x i2 -> ST(0)
                                                                                                     定と演算順序が
 71
          0000
                                                                                                    MASMと異なるの
     00e8 DA0D2E00
                                 fimull i4
                                                           # ST(0) x i4 -> ST(0)
 72
                                                                                                    で注意が必要
 72
          0000
 73
     00ee D8C9
                                 fmul
                                          %st(1),%st
                                                           # ST(0) × ST(1) -> ST(0)
 74
     00f0 DCC9
                                 fmul
                                          %st,%st(1)
                                                           # ST(0) × ST(1) -> ST(1)
 75
     00f2 DEC9
                                 fmulp
                                          %st.%st(1)
                                                           # ST(0) × ST(1) -> ST(1); pop
 76
     00f4 DEC9
                                                           # ST(0) × ST(1) -> ST(1); pop
                                 fmulp
 77
 78
     00f6 D8350000
                                 fdivs
                                          f4
                                                           # ST(0) ÷ f4 -> ST(0)
 78
          0000
 79
     00fc DC350800
                                 fdivl
                                          f8
                                                           # ST(0) ÷ f8 -> ST(0)
 79
          0000
                                 fidivs i2
     0102 DE352C00
                                                           # ST(0) ÷ i2 -> ST(0)
 80
 80
          0000
     0108 DA352E00
                                 fidivl i4
                                                           # ST(0) ÷ i4 -> ST(0)
 81
 81
          0000
     010e D8F1
                                 fdiv
                                          %st(1),%st
                                                           # ST(0) ÷ ST(1) -> ST(0)
 82
                                                           # ST(0) ÷ ST(1) -> ST(1)
 83
     0110 DCF1
                                 fdiv
                                          %st,%st(1)
                                 fdivp
                                                           # ST(0) ÷ ST(1) -> ST(1); pop
 84
     0112 DEF1
                                          %st,%st(1)
                                 fdivp
     0114 DEF1
                                                           # ST(0) ÷ ST(1) -> ST(1); pop
 85
 86
 87
     0116 D83D0000
                                 fdivrs f4
                                                           # f4 ÷ ST(0) -> ST(0)
 87
          0000
 22
     011c DC3D0800
                                 fdivrl f8
                                                           # f8 ÷ ST(0) -> ST(0)
 88
          0000
 89
     0122 DE3D2C00
                                 fidivrs i2
                                                           # i2 ÷ ST(0) -> ST(0)
 89
          0000
     0128 DA3D2E00
                                 fidivrl i4
                                                           # i4 ÷ ST(0) -> ST(0)
 90
 90
          0000
 91
                                 fdivr
                                          %st(1),%st
                                                           # ST(1) ÷ ST(0) -> ST(0)
                                 fdivr
                                          %st,%st(1)
                                                           # ST(1) ÷ ST(0) -> ST(1)
     0130 DCF9
     0132 DEF9
                                                           # ST(1) \div ST(0) -> ST(1); pop
 93
                                 fdivrp
                                          %st,%st(1)
 94
     0134 DEF9
                                                           # ST(1) ÷ ST(0) -> ST(1); pop
                                 fdivrp
 95
 96
    0136 D8D1
                                 fcom
                                          %st(1)
                                                           # ST(0) 比較 ST(1)
                                                           # ST(0) 比較 ST(1)
 97
     0138 0801
                                 fcom
 98
    013a 9BDFE0
                                 fstsw
                                          %ax
 99
    013d 9E
                                 sahf
                                          skip1
100
    013e 7402
                                 iz
101
102
    0140 D9FA
                                 fsgrt
                         skip1:
103
104
     0142 D9F2
                                 fptan
                                 fpatan
106
     0146 D9F0
                                 f2xm1
107
     0148 D9F1
                                 fyl2x
108
     014a D9F9
                                 fyl2xp1
109
110
    014c 9B
                                 fwait
111
    014d 9B
                                 wait
```

値のロードでは、値はスタックトップに PUSH され、その値が新しいスタックトップとなります。逆に値のストアでは、スタックトップの値が使われます。演算もスタックトップを中心に行われます。

スタックトップの値は、命令によっては動作終了後に POP

し、スタックトップの値を捨てることもできます。この場合、 POP前のスタックトップの次の値が、POP後、新しいスタックトップとなります。

レジスタスタック上の各レジスタには、物理レジスタ番号の 他に、常にスタックトップを0とするような相対的なレジスタ

〔図 3〕 FPU のレジスタ 構成

130



(a) FPUの全レジスタ



(b) コントロールレジスタ



(c) ステータスレジスタ



(**d**) タグワード

番号が付けられています。FPU命令では、この相対的なレジスタ番号をオペランドとして指定します。

FPU命令でスタックトップのレジスタを ST あるいは ST(0)と表し、スタックトップのすぐ下のレジスタを ST(1)と、そしてその下が ST(2)、ST(3)、…、ST(7)と表します。アセンブラ MASMでは、ST、ST(0)、ST(1)、…、ST(7)がレジスタ名として使われます。 gas ではさらに%を付けて%st、%st(0)、%st(1)、…、%st(7)がレジスタ名として使われます。

**図5**は、レジスタスタックを使ってどのように演算するかを示した例です。

#### タグワード(16ビット長)

1フィールドが2ビットの TAG(o) ~ TAG(7) で,レジスタスタック上の各レジスタの状態を示しています. TAG(o) ~ TAG(7) は,レジスタスタックの物理レジスタ番号o ~ 7 に対応しています.状態は,「ゼロ以外の有効な値」,「ゼロ」,「特別な値」,「空」の4種類を表します.

#### コントロールレジスタとコントロールワード (16 ビット長)

FPUの制御するためのレジスタで、このレジスタに設定する値のことをコントロールワードと呼びます。コントロールワードでは、丸め制御や精度制御、例外マスクを指定します。

#### (1) 丸め制御

ST (7)

演算結果の格納やメモリへの値のストアで、高い精度の値を 低い精度の値に変換するとき、失われてしまう有効数字部の下 位ビットの処理方法を指定するものです。丸め制御では、「もっ とも近い値」、「切り捨て $(-\infty$ 方向」」、「切り上げ $(+\infty$ 方向」」、 「ゼロに向かって」の四つの指定ができます。 初期値では丸めは もっとも近い値になっています。

#### (2) 精度制御

演算時の精度を指定するもので、プログラムを移植するとき、移植対象のプログラムが使用していた演算プロセッサや演算プログラムと互換を取るために使用されます。精度では、演算時の有効数字部のビットを単精度相当の「24ビット」、倍精度相当の「53ビット」、拡張精度時の「64ビット」の3種類から選択できます。初期値ではいちばん精度が高い有効数字部64ビットになっています。

#### (3) 例外マスク

例外マスクのビットには、「精度」、「アンダフロー」、「オー バフロー」、「ゼロ除算」、「デノーマライズドオペランド」、「無

#### 〔図 4〕FPUのレジスタスタックの動作





Interface Oct. 2003

ST (7)

#### 〔表 2〕FPU 命令の一覧

|                 | PU 命令の-        | 55.                                                                                                                           |            |                |                                                    |
|-----------------|----------------|-------------------------------------------------------------------------------------------------------------------------------|------------|----------------|----------------------------------------------------|
| 分 類             | インストラ<br>クション名 | 動作                                                                                                                            | 分 類        | インストラ<br>クション名 | 動作                                                 |
| データ<br>転送<br>命令 | FLD            | 浮動小数点値のロード,値は PUSH され ST (o) となる                                                                                              |            | FICOMP         | その後 POP し元の ST (o) の値を捨てる                          |
|                 | FST            | ST (o) の浮動小数点値のストア<br>ST (o) の浮動小数点値をストア後, POP し元の ST                                                                         |            | FCOMI*         | 浮動小数点比較し,その結果を CPU の EFLAGS に<br>設定                |
|                 | FSTP           | (o)の値を捨てる                                                                                                                     |            | FUCOMI*        | 順序化不可能比較し,その結果を CPUの EFLAGS                        |
|                 | FILD<br>FIST   | 整数値のロード, 値は PUSH され ST (o) となる<br>ST (o) を整数値としてストア                                                                           | 比較         |                | に設定<br>浮動小数点比較し,その結果を CPU の EFLAGS に               |
|                 | FISTP          | ST(0)を整数値としてストア後, POP し元の ST(0) の値を捨てる                                                                                        |            | FCOMIP*        | 設定.<br>その後,POP し元の ST (o) の値を捨てる                   |
|                 | FBLD           | パックドBCDの値をロード、値はPUSHされST(o)<br>となる                                                                                            |            | FUCOMIP*       |                                                    |
|                 | FBSTP          | ST(0)をパックドBCDとしてストア後、POPし元                                                                                                    |            | FTST           | その後, POP し元の ST (o) の値を捨てる<br>ST (o) と o.o を比較     |
|                 |                | の ST (o) の値を捨てる                                                                                                               |            | FXAM           | ST (o) の状態を調べる                                     |
|                 | FXCH           | ST(o)とST(i)の値の交換                                                                                                              |            | FSIN           | ST (o) の正弦                                         |
|                 | FCMOVcc*       | * cc の条件成立で、ST (i) を ST (o) に転送 cc=(E, NE, B, BE, NB, NBE, U, NU) 浮動小数点加算                                                     |            | FCOS           | ST (o) の余弦                                         |
|                 | FADD           |                                                                                                                               |            |                | ST(0)の正弦と余弦を同時に計算する。元のST(0)                        |
|                 |                | 浮動小数点加算後、POP し元の ST (o) の値を捨てる                                                                                                |            | FSINCOS        | に正弦、余弦は PUSH され新しい ST(o) になる                       |
|                 | FADDP<br>FIADD | 学動小数点加算後、POP したの ST (0) の値を指でる<br>整数値を浮動小数点に変換後、浮動小数点加算<br>浮動小数点減算<br>浮動小数点減算後、POP し元の ST (0) の値を捨てる<br>整数値を浮動小数点に変換後、浮動小数点減算 |            | FPTAN          | ST(o)の正接を計算. 元のST(o)に正接, その後                       |
|                 | FSUB           |                                                                                                                               |            | FFIAN          | 1.0 が PUSH され新しい ST (o) になる                        |
|                 | FSUBP          |                                                                                                                               |            | FPATAN         | ST(1)/ST(0)の結果で逆正接を計算し、ST(1)に                      |
|                 | FISUB          |                                                                                                                               |            |                | ストア.<br>  その後,POP し ST (o) の値は捨てられ,逆正接の            |
|                 | FSUBR          | オペランドを逆にして浮動小数点減算                                                                                                             | 関数<br>命令   |                | 値が新しいST(o)になる                                      |
|                 | FSUBR          | オペランドを逆にして浮動小数点減算後、POP し                                                                                                      |            | F2XM1          | 2 <sup>ST(0)</sup> -1を計算                           |
|                 | FSUBRP         | オペラントを逆にして浮動小数点減算後、POP し<br>  元の ST (o) の値を捨てる                                                                                |            | FZXMI          | $ST(1) \times log_2ST(0)$ を計算し、 $ST(1)$ にストア.      |
|                 | FISUBR         | 整数値を浮動小数点に変換後、オペランドを逆にして浮動小数点減算                                                                                               |            | FYL2X          | その後、POP し ST (0) の値を捨てられ、対数の計<br>算値が新しい ST (0) になる |
|                 | FMUL           | 浮動小数点乗算                                                                                                                       |            | FYL2XP1        | $ST(1) \times \log_2(ST(0)+1)$ を計算し、 $ST(1)$ にストア. |
|                 | FMULP          | 浮動小数点乗算後, POP し元の ST (o) の値を捨てる                                                                                               |            |                | その後、POPしST(0)の値を捨てられ、対数の計                          |
|                 | FIMUL          | 整数値を浮動小数点に変換後、浮動小数点乗算                                                                                                         |            |                | 算値が新しい ST (o) になる                                  |
| 基本              | FDIV           | 浮動小数点除算                                                                                                                       |            | FLD1           | 定数 + 1.0 を ST (0) に PUSH                           |
| 演算              | FDIVP          | 浮動小数点除算後、POPし元のST(0)の値を捨てる整数値を浮動小数点に変換後、浮動小数点除算オペランドを逆にして浮動小数点除算オペランドを逆にして浮動小数点除算後、POPし元のST(0)の値を捨てる                          |            | FLDZ           | 定数 + 0.0 を ST (0) に PUSH                           |
| 命令              | FIDIV          |                                                                                                                               |            | FLDPI          | 定数πをST(0)に PUSH                                    |
|                 | FDIVR          |                                                                                                                               |            | FLDL2E         | 定数 log₂e を ST (o) に PUSH                           |
|                 |                |                                                                                                                               |            | FLDLN2         | 定数 log <sub>e</sub> 2 を ST (o) に PUSH              |
|                 | FDIVRP         |                                                                                                                               |            | FLDL2T         | 定数 log <sub>2</sub> 10 を ST (0) に PUSH             |
|                 | FIDIVR         | 整数値を浮動小数点に変換後、オペランドを逆に                                                                                                        |            | FLDLG2         | 定数 log 10 2 を ST (0) に PUSH                        |
|                 | FIDIVE         | して浮動小数点除算                                                                                                                     |            | FINCSTP        |                                                    |
|                 | FPREM          | 浮動小数点で剰余を求める(x87 FPU独自の演算)                                                                                                    |            |                | FPU のステータスレジスタの TOP を-1する                          |
|                 | FPREM1         | 浮動小数点で剰余を求める(IEEE 規格互換の演算)                                                                                                    |            | FFREE          | 指定 ST (i) を空にする                                    |
|                 | FABS           | ST (o) の絶対値                                                                                                                   |            | FINIT          | 未処理の例外の有無を調べた後、FPUを初期化する                           |
|                 | FCHS           | ST (o) の符号反転                                                                                                                  |            | FNINIT         | 未処理の例外の有無を調べずに、FPU を初期化する                          |
|                 | FRNDINT        | ST(o)の整数への丸め                                                                                                                  |            | FCLEX          | 未処理の例外の有無を調べた後,例外フラグをク<br>  リアする                   |
|                 | FSCALE         | スケール $(ST(0) \leftarrow ST(0) \times 2^{ST(1)})$                                                                              |            |                | , , , , -                                          |
|                 | FSQRT          | ST (0) の平方根                                                                                                                   |            | FNCLEX         | 未処理の例外の有無を調べずに,例外フラグをク<br>  リアする                   |
|                 | FXTRACT        | ST(o) の指数部と有効数字部を分解し, 元の ST(o) に指数, 有効数字は PUSH され新しい ST(o) になる                                                                | x87<br>FPU | FSTCW          | 未処理の例外の有無を調べた後、FPUのコント<br>ロールワードをストア               |
| 比較命令            | FCOM           | 浮動小数点比較                                                                                                                       |            |                | 未処理の例外の有無を調べずに、FPUのコント                             |
|                 | FCOMP          | 浮動小数点比較後, POP し元の ST (0) の値を捨てる ST (0) と ST (1) を浮動小数点比較後, 2 回 POP し元の ST (0) と ST (1) の値を捨てる                                 |            | FNSTCW         | ロールワードをストア                                         |
|                 | FCOMPP         |                                                                                                                               |            | FLDCW          | FPUのコントロールワードのロード                                  |
|                 | FUCOM          | 順序化不可能比較                                                                                                                      |            | FSTENV         | 未処理の例外の有無を調べた後,FPUの環境をス<br> トア                     |
|                 | FUCOMP         | 順序化不可能比較後, POP し元の ST (o) の値を捨<br>てる                                                                                          |            | FNSTENV        | 未処理の例外の有無を調べずに、FPUの環境をストア                          |
|                 | FUCOMPP        | ST (0) と ST (1) を順序化不可能比較後, 2回 POP                                                                                            |            | FLDENV         | FPUの環境をロード                                         |
|                 | DT GCT         |                                                                                                                               |            | FSAVE          | 未処理の例外の有無を調べた後、FPUの状態をス                            |
|                 | FICOM          |                                                                                                                               |            | FSAVE          | トア                                                 |
|                 | FICOMP         |                                                                                                                               |            |                |                                                    |

## 開発技術者のためのアセンブラ入門

#### 〔表 2〕 FPU 命令の一覧(つづき)

| 分 類        | インストラ<br>クション名 | 動作                                          |  |  |
|------------|----------------|---------------------------------------------|--|--|
|            | FNSAVE         | 未処理の例外の有無を調べずに,FPUの状態をストア                   |  |  |
|            | FRSTOR         | FPUの状態をロード                                  |  |  |
| x87<br>FPU | FSTSW          | 未処理の例外の有無を調べた後、FPUのステータ<br>スワードをストア         |  |  |
| 制御命令       | FNSTSW         | 未処理の例外の有無を調べずに、FPUのステータ<br>スワードをストア         |  |  |
|            | WAIT<br>FWAIT  | 未処理のマスクされていない浮動小数点例外の有無<br>を調べ、あればその処理を実行する |  |  |
|            | FNOP           | FPU は何もしない                                  |  |  |

- ●表中の\*が付けられた命令は、Pentium Pro 以降の FPU でのみ使用可能な命令
- 表中の「ステータスワード」はステータスレジスタの値、「コントロールワード」はコントロールレジスタの値、「環境」はコントロール、ステータス、タグワード、命令ポインタ、データポインタを指す、「状態」は環境にレジスタスタックを加えた FPU のすべてのレジスタ

効オペレーション」があります. この内, 精度は演算結果や値をメモリにストアしたとき丸めが発生したことを示し, デノーマライズドオペランドは, 値としてデノーマルな値が使われたことを示します.

例外マスクの各ビットは、例外が発生した場合に、割り込みを発生させるか否かを指定するものです。ビットを0にすることで割り込みが発生します。例外マスクが1の場合に、例外が発生すると、演算結果が例外発生を示す値となります。たとえば、オーバフローやゼロ除算を行った場合なら、無限大が演算結果となります。初期値ではすべてマスク(1)になっています。

● ステータスレジスタとステータスワード (16 ビット長) FPU の状態を表しているレジスタで、このレジスタから得られた値のことをステータスワードと呼びます。ステータスワードでは、FPU の動作中を示す「FPU Busy」、実行結果を表す「条件コード」、レジスタスタックの ST (0) の物理レジスタ番号を示す「TOP」、そして例外発生を示す「エラーサマリステータス」、「スタックフォルト」、「例外フラグ」があります。

#### (1) FPU Busy

占い 16 ビット時代の FPU との互換のために用意されている ビットです。32 ビット CPU では、エラーサマリステータスと 同じ内容となっています。

#### (2) 条件コード

条件コードは、FPU命令の実行結果が設定されます。ただし、 $Co \sim C_3$ の設定のされ方は、命令により異なるので、実際にこの条件コードを使用する場合には注意する必要があります。

#### (3) 例外フラグとエラーサマリステータス

例外が発生すると、該当する例外フラグが1になります。例外フラグには、例外マスクに対応する形で「精度」、「アンダフロー」、「オーバフロー」、「ゼロ除算」、「デノーマライズドオペランド」、「無効オペレーション」があります。エラーサマリステータスは、例外マスクのいずれかのマスクが0になっている

とき、該当する例外が発生し、FPU 例外処理ハンドラを呼び出すための割り込みを要求している場合に1になります.

#### (4) スタックフォルト

レジスタスタックで値の PUSH/POP が行われ、レジスタスタックがオーバフローあるいはアンダフローしたことを示すものです。このとき条件コードの C1が 1 ならオーバフロー、0 ならアンダフローということになります。FPU の例外処理ハンドラに、このスタックフォルトの発生に対応した、レジスタスタックをタック拡張プログラムを組み込むことで、レジスタスタックをメモリ上に拡張することができます。

これにより、最大8個しかない格納できないレジスタスタックの値を、9個以上格納できるようにすることができます。

#### ● 命令ポインタとデータポインタ

FPUは、FPUから例外割り込みが発生したとき、例外処理ハンドラが、例外を発生させた演算命令やデータの情報が取得できるようにするための命令をもっています。そのための情報を格納しているのが、この命令ポインタとデータポインタです。命令ポインタあるいはデータポインタの内容を見ることで、例外を発生させたFPU命令やそのアドレス(命令ポインタ)、アクセスしたデータのアドレス(データポインタ)が取得できます。

命令ポインタやデータポインタは単体ではアクセスすることはできません。いままで述べてきたコントロールレジスタ、ステータスレジスタ、タグワードと一緒にアクセスすることになります。この一連の情報は、メモリにストアされますが、その形式は CPU の動作モード(リアル、プロテクト、16 ビット、32 ビット)により異なります。

#### FPU 命令の種類と特徴

FPU命令には「データ転送」、「基本演算命令」、「比較命令」、「超越関数」、「定数ロード」、「x87 FPU制御命令」の6種類があります。 **表2**は、この分類にしたがい、すべての FPU命令を示したものです。

FPU命令で使われるニモニックには、文字の使われ方に一定の規則があります。それは、FPU命令はWAIT命令を除くすべての命令はFで始まるということです。また、データ転送、基本演算命令、比較命令では、Fの次にIがあればメモリ上にある整数を扱うことを意味し、Fの次がBならメモリ上にあるパックドBCDを扱うことを意味します。

ニモニックの最後がPで終わる命令は、命令実行終了後、レジスタスタックはPOPされ、それまでST(1)であった値が新たなST(0)になります。ニモニックの最後がPPの2文字で終わる命令は、命令実行終了後、レジスタスタックは2回POPされ、それまでST(2)であった値が新たなST(0)になります。

FPU 命令のオペランドは、レジスタスタック間の転送演算では、転送元(SOU)と転送先(DEST)の二つのオペランドをもちます。ただし、この場合、転送元あるいは転送先のどちらかは

#### 〔図 6〕FPU の比較結果の取得方法

A ≦ B

A < B

1 0

0 1

1



ST(0)にする必要があります。たとえば、「ST, ST(4)」や「ST(1), ST」の指定は OK ですが、「ST(2), ST(4)」のような指定はできません。

BE

В

アセンブラ MASM では「DEST, SOU」と記述し、gas では逆に「SOU、DEST」と記述します。また、gas で FPU 命令を使う場合の注意ですが、このレジスタスタック間の転送演算では、ニモニックに型を示す文字は付きません。

アクセス対象がメモリや汎用レジスタの場合は、オペランドは一つとなります。その場合も、転送や演算、比較の命令では、もう一方のアクセス対象はレジスタスタックST(0)となります。

アセンブラ MASM でメモリ上の値は、シンボルに型が入っているため、そのままシンボルをオペランドに記述します。gasでは、シンボルに型が入っていないので、オペランドだけでは指定されたメモリ上の値の型がわかりません。そこで"s"、"1"、"t"、"q"の文字のいずれかをニモニックの最後に付けます。単精度なら"s"、倍精度なら"1"、拡張精度"t"となります。そして、符号付き 2 進整数のワードは"s"、ショートは"1"、ロングは"q"です。 バックド BCD は使用できる命令が決められているので型を示す文字は付きません。転送や演算、比較の命令でオペランドのない命令は、レジスタスタック ST (o)、あるいは ST (o)と ST (1) が操作対象となります。

#### • データ転送命令

ロード、ストア、交換などを行います。ニモニックに"LD"があるのがロード、"ST"があるのがストアです。ロードは指定メモリ上の値を拡張精度に変換してレジスタスタックに PUSHし新たな ST(0) とします。ストアでは ST(0) の値を指定された形式の値に変換しメモリにストアします。ロード、ストアではメモリ上の値の代わりに、レジスタスタック上の ST(i) に対

交換命令のFXCHは、ST(0)とST(i)のレジスタスタック内のみの交換となっています。FCMOVcc命令は、以前説明したCMOVcc命令のFPU版です。そのため、実行できるか否かはCMOVcc命令と同じようにCPUID命令で調べます。また、MASMでFCMOVcc命令を使用する場合は、CPUの指定を「.686」とします。データ転送命令の実際のMASMでの記述例をリスト1、gasでの実際の記述例をリスト2に示しました。

#### • 基本演算命令

四則演算と剰余,平方根,絶対値,符号の付け替えといった 演算を行います.ニモニックに"ADD"があるのが加算,同じよ うに"SUB"が減算,"MUL"が乗算,"DIV"が除算となります.

減算と除算にはオペランドの演算順序があるため、オペランドの演算順序を逆にするための命令も用意されています。減算と除算のニモニックの後のほうに、"R"が指定されている命令がそれです。この減算と除算の命令は、MASMと gas では動作が異なるので注意が必要です。MASMは、"R"なしが「DEST  $\leftarrow$  DEST op SOU」、"R"付きが「DEST  $\leftarrow$  SOU op DEST」となります。しかし、gas でば R"なしが「ST(0) op ST(i)  $\rightarrow$  DEST」、"R"付きが「ST(i) op ST(0)  $\rightarrow$  DEST」となります。その例として減算および除算における MASMと gas の違いをリスト 1、リスト 2 に示しました。

#### 比較命令

レジスタスタック上の値を調べたり、ST(0)と他のレジスタスタック上の値との比較、ST(0)とメモリ上の値とを比較します.

比較命令には、クワイエット型 NaN の扱いの違いにより二つの種類があります。連載第3回(2001年2月号)の実数の説明で、非数(NaN)があったと思います。非数はその名のように数ではありません。そして、非数には「クワイエット型 NaN (QNaN)」、「シグナル型 NaN (SNaN)」がありました。FPUは、SNaN に対する演算を無効オペレーションの例外とします。しかし、QNaN に対する演算は例外ではなく、結果として値を求める命令では不定実数(内容は QNaN)を生成します。

ニモニックに"U"の文字が付かない比較命令は、オペランド



に NaN (QNaN と SNaN) が指定されていた場合は無効オペレーション例外を発生します。しかし、ニモニックに"U"の文字が付いた比較命令は、オペランドの QNaN は無効オペレーション 例外の対象とはしなくなります。

最初にも述べたように、現在 CPU と FPU は見かけ上一つのチップに入っていますが、ハードウェア的には CPU と FPU は独立しています。そのため、比較命令の結果 (大小関係) は、FPU のステータスレジスタの  $C_0 \sim C_3$  のフラグに設定されます。

しかし、この状態のままでは汎用命令の条件ジャンプなどの命令で使用することができません。そこで、FPU制御命令のFSTSW命令を使い、FPUのステータスレジスタの内容を汎用レジスタのAXに転送し、さらに SAHF命令で CPUのフラグレジスタに転送することで初めて、条件ジャンプなどに使用することができます(図 6).

#### • 超越関数

ST(0)の値に対して三角関数や指数関数、対数関数の演算を行います。FPUの超越関数は、表2に示すとおり8種類しかありません。そのため、これ以外の関数はこの8種類の命令から計算することになります。表3は、この8種類のFPU命令から一般的によく使われている三角関数、指数関数、対数関数、双曲線関数の計算式を示したものです。

#### 定数ロード

ゼロや 1,  $\pi$ といった定数をレジスタスタックに PUSH し, ST (0) に設定します.

#### • x87 FPU 制御命令

この命令は、浮動小数点演算ユニット(FPU)を制御するための命令です。この FPU の制御は、OS やコンパイラ言語のライブラリといったルーチンが行うため、OS の下で動作しコンパイラ言語とリンクされるアセンブラのプログラムでは、ほとんどが勝手に使用することはできません。そのため、Windows やLinux で上で実行されるプログラム、それもコンパイラ言語とリンクされるアセンブラのプログラムでは、この FPU 制御命令は使用しません。

もし間違って実行するとプログラムの実行に支障をきたしたり、誤った演算結果となる場合もあるので注意してください。ただし、例外としてFWAIT命令は、一般アプリケーションでも使用する必要がある重要な命令だといえます。

#### (1) FWAIT 命令と例外

FPU命令のFWAIT命令は、本来CPUにあるWAIT命令の別名です。FPU命令と一緒に使用されることからFWAIT命令としてFPU命令に分類されています。

FWAIT 命令は、FPU内で保留となっている未処理の例外を調べ、もし未処理の例外があればそれを処理するための命令です。FPUが命令を処理中に例外を発見した場合は、ステータスレジスタの例外フラグを設定します。例外がマスクされていなければ割り込み発生となるのですが、実際にCPUがFPUからの割り込みを検知するのは、例外を発生したFPU命令実行後、最初に実

#### 〔表3〕FPUによる関数の計算式

- sin は FSIN 命令, cos は FCOS 命令, tan は FPTAN 命令で求められる.
- $tan^{-1}$ は FPATAN 命令で求める。  $tan^{-1}(\frac{y}{x})$  = FPATAN (y, x)
- ●それ以外は次の式で求める.

$$\sin^{-1}(x) = \tan^{-1} \frac{x}{\sqrt{(1-x)(1+x)}} = \text{FPATAN}(x, \sqrt{(1-x)(1+x)})$$

$$\cos^{-1}(x) = 2 \times \tan^{-1} \frac{\sqrt{1-x}}{\sqrt{1+x}} = 2 \times \text{FPATAN}(\sqrt{1-x}, \sqrt{1+x})$$

#### (a) 三角関数

・指数関数は F2XM1 命令で計算、 $x^y$ は FYL2X 命令を使用する.  $2^x = (2^x - 1) + 1 = F2XM1(x) + 1$   $e^x = (2^{x \times \log_2 e} - 1) + 1 = F2XM1(x \times FLDL2E) + 1$   $10^x = (2^{x \times \log_2 10} - 1) + 1 = F2XM1(x \times FLDL2T) + 1$   $Y^x = (2^{x \times \log_2 y} - 1) + 1 = F2XM1(FYL2X(x, y)) + 1$ 

#### (b) 指数関数

●対数関数は FYL2x 命令で計算 log<sub>2</sub>x=1 × log<sub>2</sub>x=FYL2X (FLD1, x) log<sub>e</sub>x=log<sub>e</sub>2 × log<sub>2</sub>x=FYL2X (FLDLN2, x) log<sub>10</sub>x=log<sub>10</sub>2 × log<sub>2</sub>x=FYL2X (FLDLG2, x)

#### (c) 対数関数

$$\begin{aligned} \sinh(x) &= \frac{\text{sign}(x)}{2} \left[ (e^{|x|} - 1) + \frac{e^{|x|} - 1}{e^{|x|}} \right] \\ &e^{|x|} - 1 = \text{F2XM1} \left( |x| \times \text{FLDL2E} \right) = z \quad \text{$\xi$ $\neq $\emptyset$ $\xi$} \\ &\sinh(x) &= \frac{\text{sign}(x)}{2} (z + \frac{z}{z+1}) \\ &\cosh(x) &= \frac{1}{2} (e^{|x|} + \frac{1}{e^{|x|}}) = \frac{1}{2} \left[ (z+1) + \frac{1}{z+1} \right] \\ &\tanh(x) &= \text{sign}(x) \times (\frac{e^{2|x|} - 1}{e^{2|x|} + 1}) \\ &e^{2|x|} - 1 = \text{F2XM1} \left( 2 \times |x| \times \text{FLDL2E} \right) = y \quad \text{$\xi$ $\neq $\emptyset$ $\xi$} \\ &\tanh(x) &= \text{sign}(x) \times \frac{y}{y+2} \end{aligned}$$

#### (d) 双曲線関数

$$\begin{aligned} &\sinh^{-1}(x) = \operatorname{sign}(x) \times \operatorname{log}_{e}(z+1) \\ &= \operatorname{sign}(x) \times \operatorname{FYL2XP1}(\operatorname{FLDLN2}, z) \end{aligned}$$

$$z = \left| x \right| + \frac{\left| x \right|}{\frac{1}{\left| x \right|} + \sqrt{1 + \left(\frac{1}{\left| x \right|}\right)^{2}}}$$

$$\cosh^{-1}(x) = \operatorname{log}_{e}(z+1) = \operatorname{FYL2XP1}(\operatorname{FLDLN2}, z)$$

$$z = x - 1 + \sqrt{(x-1)(x+1)}$$

$$\tanh^{-1}(x) = \frac{\operatorname{sign}(x)}{2} \times \operatorname{log}_{e}(z+1)$$

$$= \frac{\operatorname{sign}(x)}{2} \times \operatorname{FYL2XP1}(\operatorname{FLDLN2}, z)$$

$$z = \frac{2\left| x \right|}{1 - \left| x \right|}$$

(e) 逆双曲線関数



(**b**) 良いプログラム例

行される FWAIT 命令か FPU 命令となります。そのため、例外発生と割り込み発生の間には時間差が生ずることがあります。

x87 FPU制御命令の一部を除き、FPU命令は本来の動作(転送や演算など)の前に FWAIT命令と同一の動作を自動的にします。そのた、FPU命令の前に FWAIT命令を付ける必要はありません。ただし、x87 FPU制御命令の内、FNで始まる命令は、意図的に本来の動作を始める前の FWAIT動作をしません。そのため、FWAIT動作をさせた場合に限り、x87 FPU制御命令の FNで始まる命令を使用することができます。

#### (2) FWAIT 命令による CPU と FPU の同期

前述したように CPUと FPU は並行して動作しています。ただし、CPUと FPUが同じメモリ上の値をアクセスしてもプロセッサが自動的に同期を取るため、メモリ上の値は CPU も FPUも正しくアクセスできます。しかし、どうしても人為的に CPUと FPUで同期を取る必要があります。

具体的には、**図7**のように FPU 命令がリードしたメモリ上の値を、すぐに CPU が変更するプログラムで、メモリリードする FPU 命令で例外が発生し、割り込みハンドラが起動したとき、不具合が生ずる場合があります。

通常、1命令の実行時間はCPUよりFPUのほうがかかります。そのため、FPUが1命令を実行している間に、CPUは数命令実行することになります。そのため、FPU命令で例外が発生した場合、割り込みが発生し、FPUの例外処理ハンドラの起動するまでの間に、CPUが命令を数命令実行し、FPUがリードしたメモリ値を変更している場合があります。これでは、せっかくFPUの例外処理ハンドラで復旧処理をしても、肝心の復旧に必要なFPU命令がリードするメモリ上のデータがCPUにより変更されていたのでは、正しく、例外を復旧することができません。

これを防ぐため、FPUがリードしたメモリ上の値を、すぐに CPUが変更する場合、FPUのメモリアクセス命令と CPUのメ モリアクセス命令の間には、必ず FWAIT 命令を入れ、FPUと CPUの同期を取るようにする必要があります。

次回は,x86系 CPU がもつ MMX 命令について説明する予 定です.

おおぬき・ひろゆき 大貫ソフトウェア設計事務所

# 初級ドライバ開発者のための

# Windowsデバイスドライバ 開発テクニック

第1回 デバイスドライバの基本関数

丸山治雄

新連載

#### 本連載について

Windows NT が発売されて以来、Windows NT 用デバイスドライバの解説書が、洋書、和書を問わず数多く出版されてきました。

しかしながら、多くの書籍は DDK (Driver Development Kit) が提供している関数 (DDK 関数) の解説に終始し、関数の組み合わせ、すなわちプログラミング上の実践的な技巧に関する解説は皆無に近く、結局のところ試行錯誤しながらプログラミングすることになります。

本連載では、デバイスドライバ開発の初級者を対象に、具体的なデバイスドライバの開発を行いながら、DDK 関数の使用方法を解説します。

なお、作成するドライバは、市販の PCI ボード (KIT1050 PLX Getter II. 図 1.1,写真 1.1)をターゲットとし、Windows NTと Windows 2000を共有するタイプとします。開発環境は Windows 2000 DDKと Visual C++ 6.0を使用し、すべて C言語で記述します。デバイスドライバのスケルトンを生成して細部を組み込むドライバの作成方法については、連載の最後の回で説明したいと思います。誌面の都合上、DDK 関数の詳細は DDK のドキュメントを参照してください。

# 1.1 デバイスドライバに最低限必要な機能

今回説明するデバイスドライバのソースファイルの一覧を **表 1.1** に示します. 斜体の関数は、次回以降で説明する予定

#### 〔図 1.1〕KIT1050 PLX Getter II のブロック図 -



#### 〔表 1.1〕デバイスドライバのソースファイル一覧

| Driverdef.h              | デバイスドライバ用定義ファイル. ドライバで使用する, 構造体などが定義されている                                                             |        |                                                                                      |
|--------------------------|-------------------------------------------------------------------------------------------------------|--------|--------------------------------------------------------------------------------------|
| Apidef.h<br>kit1050def.h | アプリケーションとデバイスドライバ共通定義ファイル.<br>KIT1050 ボードのレジスタ定義、PLX9054のレジスタ<br>定義、アプリケーションとドライバ間の通信用構造体<br>が定義されている |        |                                                                                      |
| DriverEntry.c            | ドライバの開始と停止を制御する本体部分で次の関数<br>が記述されている                                                                  |        |                                                                                      |
|                          | DriverEntry()                                                                                         | ドラ     | イバの登録処理を行う                                                                           |
|                          | KIT1050<br>CreateClose()                                                                              | (ロス関成, | リケーションがドライバ<br>バイス)をオープン/ク<br>ズしたときに呼び出され<br>数で、メモリマップの作<br>KIT1050ボードのレジス<br>定などを行う |
|                          | KIT1050Unload()   ドライバを停止するときに「<br>が出される関数で、割り込み<br>デバイスオブジェクトなどの<br>削除や、ドライバ内部のメニリを削除する              |        | イバを停止するときに呼<br>される関数で, 割り込み,<br>イスオブジェクトなどの<br>や, ドライバ内部のメモ<br>削除する                  |
|                          | KIT1050Dispatch() アプリケーションから要求<br>れた各種処理を行う                                                           |        | 各種処理を行う                                                                              |
|                          | KIT1050Cleanup() アプリケーションから登録されたリリース要求待ちのイベントを削除する                                                    |        |                                                                                      |
| PCIFIND.C                |                                                                                                       |        |                                                                                      |
| PCIFIND.C                | FindKIT1050_PCI()                                                                                     |        | イバが処理する PCI<br>ドを探す                                                                  |
|                          | GetPCIConfig()                                                                                        |        | コンフィグレーションレ<br>タの内容を読み出す                                                             |
|                          | SetPCIConfig()                                                                                        |        | コンフィグレーションレ<br>タにデータを書き込む                                                            |
| MEMORYMP.C               |                                                                                                       |        |                                                                                      |
| MEMORIMP, C              | MapMemMap<br>TheMemory()PCI ボードのメモリをア<br>プリケーションでアクセ<br>スできるようにマッピン<br>グを行う                           |        |                                                                                      |
| PCIRESOU.C               | Windows NT 専用. この関数内の機能を使用すること<br>はないと思われるので, 説明は省略                                                   |        |                                                                                      |
|                          | PCIReportResource PCIボードのリソース Usage() をシステムに登録                                                        |        |                                                                                      |
|                          | PCIRemoveResource() PCIボードのリソース<br>をシステムから削除                                                          |        |                                                                                      |
|                          |                                                                                                       | A 1 11 | の関数は安同国路で発用する                                                                        |

※斜体の関数は次回以降で説明する

#### 〔図 1.2〕Windows システム、およびアプリケーションとデバイス ドライバの関係





[写真 1.1] KIT1050 PLX Getter II (ケーアイテクノロジー) の外観



です. また、Windows システム、およびアプリケーションと デバイスドライバの関係を**図 1.2** に示します.

デバイスドライバを作成するときに最低限必要な機能(関数) を以下に示します.

#### • DriverEntry ()

デバイスドライバのエントリ関数で、デバイスドライバ登録 時に、この関数に制御が渡ってきます.

この関数内では、PCIボードを探して、必要リソースを読み込む処理、レジストリからドライバ起動に必要なパラメータを読み込む処理、Create関数、Close関数およびUnload関数をシステムに登録するといった処理を行います。

#### ● Unload 関数

デバイスドライバを削除するときに必要になります. Driver Entry()の中で指定します.

#### ● Create 関数, Close 関数

アプリケーションから CreateFile()によりドライバをオープンまたは、CloseHandle()によりクローズするときに、必要になります.

# 1.2 $\checkmark$ DriverEntry()の詳細

#### レジストリ(パラメータ)のパス作成(リスト 1.1)

DriverEntry()に制御が渡ってきたら、レジストリからドライバの動作に必要なパラメータを取得します.

レジストリのパスは、①の RegistryPathにセットされています. たとえば "¥registry¥machine¥system¥ControlSet 001¥services¥KIT1050DRIVER"のようなパス名が Unicodeで格納されています. ここで、ControlSet001は固定の名前ではなく、そのときの状態により変わります.

②で RegistryPath に Unicode で 16 個の文字数を加算しているのは, ③で定義している Parameters を付加する分を確保するためです. 最終的なレジストリパス名は, ④で作成しています.

#### 〔リスト 1.1〕レジストリのパス作成

(DriverEntry.c/DriverEntry()から)

```
NTSTATUS
DriverEntry(
    IN PDRIVER OBJECT DriverObject,
    IN PUNICODE STRING RegistryPath
    RTL QUERY REGISTRY TABLE paramTable[5];
    PDEVICE_OBJECT deviceObject = NULL;
    PDEVICE EXTENSION pExtension ;
    NTSTATUS
                  ntStatus;
    WCHAR deviceNameBuffer[] = L"\Y\Device\Y\KIT1050DRIVER";
    UNICODE_STRING deviceNameUnicodeString;
    UNICODE STRING deviceLinkUnicodeString;
   UNICODE STRING
                     InRegistryPath;
   UNICODE_STRING
                      Parameter:
                     ParameterKev[] = L"\\Parameters": - 3
    WCHAR
    UNICODE_STRING
                     ParameterPathUnicodeString:
            InitLED:
   ULONG
    ULONG
             DefaultData;
                        // Lock Ptr Unload routine
    PVOTD
            lockPtr:
    lockPtr = MmLockPagableCodeSection( KIT1050Unload );
// レジストリ (パラメータ) のパス作成
    InRegistryPath.MaximumLength = RegistryPath->MaximumLength +
                                   sizeof(WCHAR) * 16:
    InRegistryPath.Length = 0;
    if (InRegistryPath.Buffer = ExAllocatePool(
                   NonPagedPool,
                   InRegistryPath.MaximumLength
        RtlCopyUnicodeString(&InRegistryPath, RegistryPath);
        RtlInitUnicodeString( &Parameter, ParameterKey );
                                                               · (4)
        {\tt RtlAppendUnicodeStringToString(\&InRegistryPath,}
                                                 &Parameter):
    else
        ntStatus = STATUS_INSUFFICIENT_RESOURCES;
        goto DriverExit;
```

⑤でUnload 関数(KIT1050Unload)をロックしているのは、もしDriverEntry()内でエラーが発生し(通常はPCIボードが装着されていないことによるエラー)、ドライバの登録を中止するときに、Unload 関数がページアウトされないようにするためです。したがって、DriverEntry()を終了するときには、アンロックする必要があります。

もし、RegistryPathの名称を使用せずに、プログラム内で固定して使用するときは、**リスト 1.2** のようにします.

● レジストリ (パラメータ) の取得 (リスト 1.3) 次にレジストリからパラメータを取得します. 読み込む値は 以下の四つです.

#### InitLED

ドライバが正常に登録されたときに, KIT1050の LED を点 灯させる値(KIR1050の LED は, 電源投入直後はすべて点灯す る. 内部のレジスタ値は 0x00)

#### Win2000

Windows 2000 であるかそれとも Windows NT であるかを識別する値、Windows NT ではリソース情報をドライバが登録する必要があるので OS の識別が必要

#### 〔リスト 1.2〕RegistryPath を使用せずにプログラム内で固定して使 用する場合のルーチン

```
WCHAR ParameterPath[] =
 services\\KIT1050DRIVER\\Parameters";
UNICODE STRING ParameterPathUnicodeString;
 / レジストリ(パラメータ)のパス作成
RtlInitUnicodeString(&ParameterPathUnicodeString,
                                         ParameterPath)
InRegistryPath.MaximumLength =
 ParameterPathUnicodeString.MaximumLength + sizeof(WCHAR);
InRegistryPath.Length = 0 ;
if (InRegistryPath.Buffer = ExAllocatePool(
         NonPagedPool.
         InRegistryPath.MaximumLength
 RtlCopyUnicodeString(&InRegistryPath,
                           &ParameterPathUnicodeString )
else
{ //メモリ不足
 ntStatus = STATUS INSUFFICIENT RESOURCES;
 goto DriverExit:
```

#### 〔リスト 1.3〕レジストリの取得

(DriverEntry.c/DriverEntry()から)

```
// レジストリ(パラメータ)の取得
RtlZeroMemorv(
             &paramTable[0].
             sizeof(paramTable)
DefaultData = 0x0f;
paramTable[0].Flags = RTL QUERY REGISTRY DIRECT;// Init. LED
paramTable[0].Name = L"InitLED";
paramTable[0].EntryContext = &InitLED;
paramTable[0].DefaultType = REG_DWORD;
paramTable[0].DefaultData = (PVOID)&DefaultData;
paramTable[0].DefaultLength = sizeof(ULONG);
DefaultData = 0x01:
paramTable[1].Flags = RTL QUERY REGISTRY DIRECT;// Interrupt
paramTable[1].Name = L"Interrupt";
paramTable[1].EntryContext = &EnableInt;
paramTable[1].DefaultType = REG DWORD;
paramTable[1].DefaultData = (PVOID)&DefaultData;
paramTable[1].DefaultLength = sizeof(ULONG);
DefaultData = 0x00;
paramTable[2].Flags = RTL_QUERY_REGISTRY_DIRECT;
                                             // Interrupt Shared
paramTable[2].Name = L"IntExclusive";
paramTable[2].EntryContext = &IntExclusive;
paramTable[2].DefaultType = REG_DWORD;
paramTable[2].DefaultData = (PVOID)&DefaultData;
paramTable[2].DefaultLength = sizeof(ULONG);
DefaultData = 0x00:
paramTable[3].Flags = RTL_QUERY_REGISTRY_DIRECT;// Win2000
paramTable[3].Name = L"Win2000":
paramTable[3].EntryContext = &Win2000;
paramTable[3].DefaultType = REG_DWORD;
paramTable[3].DefaultData = (PVOID)&DefaultData;
paramTable[3].DefaultLength = sizeof(ULONG);
RtlQueryRegistryValues(
   RTL_REGISTRY_ABSOLUTE | RTL_REGISTRY_OPTIONAL,
   InRegistryPath.Buffer,
   &paramTable[0],
                                                               @
   NULL,
   NULL
// レジストリ・パス名領域解放
ExFreePool( InRegistryPath.Buffer );
```

#### (リスト 1.4) KIT1050NT.INI

```
YRegistryYMachineYSystemYCurrentControlSetYServicesYKIT1050DRIVER

Type = REG_DWORD 0x000000003 ← ⑤

Group = Extended Base

ErrorControl = REG_DWORD 0x00000001

Parameters

InitLED = REG_DWORD 0x0f

EnableInt = REG_DWORD 0x01

IntExclusive = REG_DWORD 0x01

Win2000 = REG_DWORD 0x00
```

#### 〔リスト 1.5〕 KIT1050Drv.inf (抜粋)

```
;; KIT1050Drv.inf
;----- Version Section -----
[Version]
Signature = $Windows NTS
Provider=%ProviderName%
; If device fits one of the standard classes, use the name and GUID here,
; otherwise create your own device class and GUID as this example shows.
                     ;Other Devices
Class = Unknown
ClassGUID = \{4d36e97e-e325-11ce-bfc1-08002be10318\}
DriverVer=02/10/2003
;------ ClassInstall/ClassInstall32 Section ------
; Not necessary if using a standard class
; 9X Style
[ClassInstall]
Addreg=Class_AddReg
; NT Style
[ClassInstal132]
Addreg=Class_AddReg
[Class_AddReg]
HKR,,,,%DeviceClassName%
HKR,, Icon,, "-18"
;----- DDInstall Sections -----
; ----- Windows NT ---
[KIT1050Drv_DDI.NT]
CopyFiles=KIT1050Drv_Files_Driver
AddReg=KIT1050Drv_NT_AddReg
[KIT1050Drv_DDI.NT.Services]
Addservice = KIT1050Drv, 0x00000002, KIT1050Drv_AddService
[KIT1050Drv AddService]
DisplayName
              = %SvcDesc%
ServiceType
              = 1
                                   : SERVICE KERNEL DRIVER
StartType
              = 3
                                   ; SERVICE_DEMAND_START
ErrorControl = 1
                                   ; SERVICE ERROR NORMAL
ServiceBinary = %10%¥System32¥Drivers¥KIT1050Drv.sys
[KIT1050Drv NT AddReg]
HKLM, "System\CurrentControlSet\Services\KIT1050DRIVER\Parameters",\F
   "initLED", 0x00010001, 0x0f
HKLM, "System\CurrentControlSet\Services\KIT1050DRIVER\Parameters",\F
    "EnableInt", 0x00010001, 0x01
HKLM, "System\CurrentControlSet\Services\KIT1050DRIVER\Parameters",\
   "IntExclusive", 0x00010001, 0x01
HKLM, "System¥CurrentControlSet¥Services¥KIT1050DRIVER¥Parameters",¥
    "Win2000", 0x00010001, 0x01
```

#### EnableInt

Windows NTでは割り込みリソースを共有できないことが多いので、Windows NTでテストするときのために割り込みを使用するか否かの値

#### IntExclusive

割り込みを共有するか否かの値

①のRtlZeroMemory()は、パラメータを読み込む領域の初期化を行っています。このとき、paramTable[5](y **リスト 1.1** の⑥)としてあったのは、読み込むパラメータの数+1が必要だからです。②のRtlQueryRegistryValues()は、すべて0の領域で読み込みを終了します。

レジストリパス名領域は, OSが Windows 2000 のときリソー

#### 〔リスト 1.6〕デバイスオブジェクトの作成

(DriverEntry.c/DriverEntry()から)

```
// Device objectの作成
RtlInitUnicodeString (&deviceNameUnicodeString,
                     deviceNameBuffer):
ntStatus = IoCreateDevice (DriverObject,
           sizeof(DEVICE EXTENSION),
           &deviceNameUnicodeString,
           FILE DEVICE MAPMEM,
           FALSE,
           &deviceObject
if ( !NT SUCCESS(ntStatus) )
    return ( ntStatus );
deviceObject->Flags |= DO DIRECT TO : -
pExtension = deviceObject->DeviceExtension;
RtlZeroMemory(
           pExtension.
           sizeof ( DEVICE EXTENSION )
pExtension->DeviceObject = deviceObject ;
pExtension->InterfaceType = PCIBus;
pExtension->BusNumber =
pExtension->InterruptObject = NULL;
pExtension->nCount = -1
pExtension->TimerBusy = FALSE;
pExtension->TotalTimeout = FALSE;
// APIからCreateFile()によりOpenをかけるドライバー名
// WCHAR
           deviceLinkBuffer[] = L"\YDosDevices
                                               ¥¥KIT1050DRIVER"
RtlInitUnicodeString(&deviceLinkUnicodeString.
                    deviceLinkBuffer):
ntStatus = IoCreateSymbolicLink (&deviceLinkUnicodeString,
                                                             _ ®
                                 &deviceNameUnicodeString):
if (!NT_SUCCESS(ntStatus))
   goto DriverErrorExit;
// KIT1050 ボードの検出
ntStatus = FindKIT1050 PCI( deviceObject, &Information );
// レジストリーパス名領域開放
ExFreePool(InRegistryPath.Buffer);
// Clase Name領域の開放
                                                              6
ExFreePool( Information.DeviceClassName.Buffer );
if (!NT SUCCESS(ntStatus))
    goto DriverErrorExit;
```

スの取得のために使用するので、PCIボードのリソースを取得してから解放します。

ここで、レジストリにパラメータを登録する方法を説明します.

Windows NTでは、KIT1050NT.INI(リスト 1.4)を RegIni.Exe を使用してレジストリに登録します。デバイスドライバは、 %SystemRoot%¥SYSTEM32¥DRIVERS に直接コピーします。その後システムを再起動し、デバイスマネージャで KIT1050DRIVER を"開始"にすると、ドライバの登録が開始されます。

のの Start = REG\_DWORD 0x000000003 は,マニュアルでドライバを開始させることを意味しています.これを 0x000000002 とすると,Windows NT が起動したときに自動的に開始されます.

もし、ドライバに問題があるとブルースクリーンになり、

## WDM を使わない理由



Windows 用デバイスドライバには、複数の形態があります. それは、Windows NT 専用ドライバ、Windows NT, Windows 2000 共有ドライバ、そして WDM (Windows Driver Model) で作成する Windows 2000、Windows 98/Me 共用ドライバです.

Windows NT 専用ドライバと Windows NT, Windows 2000 共有ドライバを作成するときは、基本的には Windows NT 用ドライバを作成して使用します。 WDM で作成する Windows 2000, Windows 98/Me 共用ドライバは、一見すると開発が簡単なようですが、いくつかの制約があるので注意が必要となります。

したがって、筆者は、Windows 2000 専用のデバイスドライバであっても、着脱可能なデバイス(PCMCIA CardBus など)を除いてできるだけ WDM 手法は採用しません。

Windows 2000 専用ドライバについては、Windows NT 用ドライバに PnP 機能を付加する方法を推奨しています.

#### 〔リスト 1.7〕アプリケーションプログラム側の記述

システムが起動できなくなる可能性があるので、ドライバ開発時には、必ず0x00000003としてテストすることを推奨します。

Windows 2000 のときは、KIT1050Drv.inf(リスト **1.5**)を デバイスドライバの登録ウィザードの中で指定します.

● デバイスオブジェクトの作成(リスト 1.6)

デバイスオブジェクトは、原則として PCI ボード 1 枚に一つのオブジェクトを作成します。今回は 1 枚のボードを対象にしているため特別な処理は行っていませんが、必要なら後で説明する リスト 1.12 (p.145) のように複数枚のボードを処理できるように改造してください。

①の IoCreateDevice()は、システムがデバイスを識別するためにデバイス名、デバイスタイプを指定します。デバイス名は、アプリケーションから CreateFile()でドライバをオープンするときの名称ではありません。デバイスタイプは今回、

# (リスト 1.8) PCIボードの検出(PCFIND.C/FindKIT1050 PCI()から)

```
// KIT1050 PCI ボードの有無を確認
                                                                          pExtension->DeviceNode.DeviceNumber = SlotNm;
for ( BusNm = 0 ; BusNm < MAX BUSES TO SEARCH ; BusNm++ )
                                                                          pExtension->DeviceNode.FunctionNumber = 0;
                                                                          pExtension->DeviceNode.Reserved = 0 ;
  for( SlotNm = 0 ; SlotNm < PCI MAX DEVICES ; SlotNm++ )</pre>
                                                                          pExtension->BusNumber = BusNm;
   RtlZeroMemory( &RegInfo,
                                                                          // KIT1050_PCI ボード情報を格納
                           (ULONG) sizeof ( PCI COMMON CONFIG ) );
                                                                          RtlCopyMemory( (PVOID)&pExtension->ConfigReg,
    PCISlot.u.AsULONG = 0:
                                                                                (PVOID) & RegInfo,
                                                                                (ULONG) sizeof ( PCI COMMON CONFIG )
   PCTSlot.u.bits.DeviceNumber = SlotNm:
    status = HalGetBusData( PCIConfiguration,
             BusNm.
              (ULONG) PCISlot.u.AsULONG,
                                                                          PCTinf->pPCTMemAddr =
              (PVOID) & Reginfo.
                                                                            pExtension->ConfigReg.u.type0.BaseAddresses[2] &
              (ULONG) sizeof ( PCI COMMON CONFIG )
                                                                            OxfffffffOL;
                                                                          PCIinf->pPLXAddr =
             ) :
                                                                            pExtension->ConfigReg.u.type0.BaseAddresses[0] &
   if ( status <= 4 )
                   // 2=Invalid Vendor ID 4=No device this slot
                                                                            OxfffffffOL:
     continue;
                                                                          PCIinf->pPLXioAddr =
    // KIT1050 PCI ボード情報を取得
                                                                            pExtension->ConfigReg.u.type0.BaseAddresses[1] &
    if ( ((USHORT)RegInfo.VendorID == (USHORT)PCIVendorID) &&
                                                                            OxfffffffcL:
       ((USHORT)RegInfo.DeviceID == (USHORT)PCIDeviceID) )
     pExtension->DeviceNode.BusNumber = BusNm;
```

#### **(リスト 1.9) メモリ/ポートのサイズを取得**(PCFIND.C/FindKIT1050\_PCI()から)

```
if ( Win2000 == 0 )
   // Windows NTのとき、メモリ/ポートのサイズを取得
  for ( BaseCnt = 0 ; BaseCnt < PCI TYPE0 ADDRESSES ; BaseCnt++ )
    BaseAddr = pExtension->ConfigReg.u.type0.BaseAddresses[BaseCnt];
    // Get Mem/Port Size
    if ( (BaseAddr & 1) == 0 )
     if ( (BaseAddr & Oxffffffff0) == 0 ) continue;
    else
     if ( (BaseAddr & Oxfffffffc) == 0 ) continue;
    Limit = -1:
    SetPCIConfig( &pExtension->DeviceNode,
         (ULONG) (BaseCnt * 4 + 0x10), &Limit, 4 );
                                                                     for (BaseCnt = 0 ;
                                                                         BaseCnt < (LONG)pAllocatedResources->List
    GetPCIConfig( &pExtension->DeviceNode,
                                                                                            ->PartialResourceList.Count:
         (ULONG) (BaseCnt * 4 + 0x10), &Limit, 4 );
                                                                         BaseCnt++ )
    SetPCIConfig( &pExtension->DeviceNode,
         (ULONG) (BaseCnt * 4 + 0x10), &BaseAddr, 4
                                                                      pResDescriptor = &pAllocatedResources->List
    if ( (BaseAddr & 1) == 0 )
                                                                             ->PartialResourceList.PartialDescriptors[BaseCnt];
     Limit &= 0xfffffff0;
                                                                       // Check for port ranges
                                                                       if (pResDescriptor->Type == CmResourceTypePort)
                                        (B)
                                                                       {
     Limit |= 0xffff0000;
                                                                        PCIinf->PLXioSize = pResDescriptor->u.Port.Length;
     Limit &= Oxfffffffc;
    if ( BaseCnt == 0 )
                                                                      if (pResDescriptor->Type == CmResourceTypeMemory)
     PCIinf->PLXMemSize = ~(Limit - 1);
    else
                                                                        if ( BaseCnt == 0 ) // PLX memory
    if ( BaseCnt == 1 )
                                                                          PCIinf->PLXMemSize = pResDescriptor->u.Memory.Length;
                                                  <u>ം</u>
     PCIinf->PLXioSize = ~(Limit - 1);
    else
                                                                         if ( BaseCnt == 2 ) // KIT1050 memory
   if ( BaseCnt == 2 )
     PCIinf->MemSize = ~(Limit - 1);
                                                                          PCIinf->MemSize = pResDescriptor->u.Memory.Length;
 }
                                                                      else
                                                                      if (pResDescriptor->Type == CmResourceTypeInterrupt)
else
                                                                       { // Interrupt
  // Windows 2000のときは、リソースをシステムから取得
                                                                        pExtension->InterruptRes.Level =
  PCISlot.u.AsULONG = 0;
                                                                          pResDescriptor->u.Interrupt.Level:
  PCISlot.u.bits.DeviceNumber = SlotNm;
                                                                        pExtension->InterruptRes.Vector =
  PCISlot.u.bits.FunctionNumber = 0;
                                                                          pResDescriptor->u.Interrupt.Vector;
 status = HalAssignSlotResources(
                                                                         pExtension->InterruptRes.Affinity
    &InRegistryPath,
                                                                          pResDescriptor->u.Interrupt.Affinity;
  //&Information->DeviceClassName,
                                                                         pExtension->InterruptRes.Flags =
   NULL, // ClassName は NULL でも構わない
                                                                          pResDescriptor->Flags;
    Information->pDriverObject,
                                                                         pExtension->InterruptRes.Share =
    Information->pDeviceObject,
                                                                          (CM_SHARE_DISPOSITION)pResDescriptor->ShareDisposition;
   PCIBus,
   BusNm.
   PCISlot.u.AsULONG,
                                                                    ExFreePool( pAllocatedResources ); — ①
    &pAllocatedResources
```

# Windowsデバイスドライバ 開発テクニック

FILE\_DEVICE\_MAPMEM (0x00008000) という DDK では定義されていない値を使用しています。これは、PCI ボードのメモリ領域をアプリケーションから直接アクセスできるようにするための宣言です (筆者は、UNIX の同等の機能から mmap、メモリマップと勝手に名づけている).

②で DO\_DIRECT\_IO を指定していますが、この値を指定することにより、アプリケーションから ReadFile()、またはWriteFile()の要求を処理できるようになります。ReadFile/WriteFileを使用しない場合は、DO\_BUFFERED\_IOを指定しても問題ありません。

③の IoCreateSymbolicLink()により、アプリケーションからオープンできる名称を作成します。今回の例では、アプリケーションからリスト 1.7 (p.141)のようにオープンします。この中でFILE\_FLAG\_OVERLAPPEDと FILE\_ATTRIBUTE\_NORMAL の使い分けは、次回以降で説明する予定です。IoCreateSymbolicLink()で作成した名称はドライバをアンインストールするときに削除する必要があります。

デバイスオブジェクトを作成したら、次に PCI ボードを探します。 ① で PCI ボードを検出する FindKIT1050\_PCI()を呼び出しています。 ③、 ⑥ では**リスト 1.1**、**リスト 1.3、リスト 1.6** で確保したメモリ領域を解放しています。

#### ● PCI ボードの検出(リスト 1.8)

ここで、PCIボードを検出する関数 FindKIT1050\_PCI() について解説します.

①の HalGetBusData()で PCIスロット上にあるすべての PCI デバイス情報を読み取ります. パラメータの PCIConfiguration は、DDKで定義されています.

バス番号とスロット番号を昇順に変えながら PCI スロットの情報を探します。関数の返り値が 4 以下のときは指定のバス、スロットに有効な情報がないことを示します。

返り値が5より大きいときは有効な情報を示すので、ベンダ IDとデバイスIDが目的のボードのベンダIDとデバイスIDで あるかを検査します。

KIT1050 ボードはベンダ ID = 0x13d6, デバイス ID = 0x0022 なので、この両者の値が一致したものをドライバが管理するボードとします。

なお、今回のボードでは検査していませんが、マイクロソフト社は、サブベンダ ID とサブシステム ID も検査の対象にするよう推奨しています。PCISIG では、チップベンダとボードベンダを区別するために、仕様で明確に定義をしています。マイクロソフト社が Windows 2000 になってから両方を検査するようにアナウンスをした目的は不明ですが、将来サブベンダ ID とサブシステム ID が PCI ボード識別のキー項目として使用される可能性があるので、できれば今から準備しておくのが安心

#### 〔表 1.2〕ベースアドレスのマッピング

| ベースアドレス 0 | PLX9054 のローカルコンフィグレーション<br>レジスタのメモリアドレス                           |
|-----------|-------------------------------------------------------------------|
| ベースアドレス1  | PLX9054のローカルコンフィグレーション<br>レジスタのポートアドレス                            |
| ベースアドレス2  | PCI ボードのメモリ/ポートアドレス 1.<br>KIT1050 ボードの場合は, メモリレジスタに<br>マッピングされている |
| ベースアドレス3  | PCI ボードのメモリ/ポートアドレス 2.<br>KIT1050 ボードでは、未使用                       |

かもしれません.

②以降は、割り込みの登録、PCIボードのレジスタメモリ、またはメモリ空間をドライバあるいはアプリケーションで使用するために、目的の PCIボード情報を格納しておきます。

#### メモリ/ポートのサイズを取得(リスト 1.9)

以上で取得した PCI ボードのリソースは、メモリまたはポートの先頭アドレスです。そこで、メモリサイズ、そして Windows 2000 の場合は物理割り込みベクタと論理割り込みベクタが必ずしも一致しているとは限らないため、論理割り込みベクタ(IRO)を取得する必要があります。

なお、Windows NT の場合で、メモリサイズが事前にわかっているときは(通常はわかっているはずだが)リスト 1.9 の処理は省略してもかまいません。また、Windows 2000 の場合で割り込みを使用しないときも省略してかまいません。しかし、割り込みを使用するときは、リスト 1.9 にあるように必ず論理 IRQを取得する必要があります。

#### (1) Windows NT の場合

メモリまたは、ポートサイズを取得するときは、次のステップで取得します。詳細は、PCISIGの公式仕様書を参照してください $^{\pm 13}$ .

- 1. ベースメモリアドレスの内容を保存します(①).
- 2. ベースメモリアドレスに-1(oxFFFFFFFF)を書き込みます(②).
- 3. ベースメモリアドレスの内容を読み取ります(③). ここで読み取った内容がメモリ/ポートのサイズになります.
- 4. 「1」で保存した、ベースメモリの値を書き込みます(④) この 処理は必ず行ってください。デバッガでステップ実行しているときに、この処理を行わないで処理を中止すると思わぬ結果になることがあります。
- 5. 「3」で得られたサイズ情報のうちメモリまたはポートの下位 ビットをマスクします(⑤).
- 6. サイズ情報は2の補数で表現されているので補数をとり、サイズとして必要な変数に格納します(®).

KIT1050 で使用されている PLX9054 は,表 1.2 のようにベースアドレスがマッピングされています.

注 1.1: PCISIG の仕様書などの情報は、PCISIG のメンバになれば簡単に入手できる。メンバになるだけなら、会費などは必要なく、オンラインサインアップの みで簡単にメンバになれる。

#### [リスト 1.10] 物理アドレスから論理アドレスへの変換(PCFIND.C/FindKIT1050 PCI()から)

```
// 領域のマッピング
                                                                Mem = PCIinf->pPCIMemAddr:
// メチリ空間
                                                                 PCIResources[1].PhysicalAddress.LowPart = Mem;
BusNm = pExtension->DeviceNode.BusNumber;
                                                                 PCIResources[1].Length = Size;
                                                                 mema.LowPart = (ULONG) Mem;
// Port
                                                                 mema.HighPart = 0L;
Size = PCIinf->PLXioSize;
                                                                 Mem = (ULONG) 0 \times 00000;
Mem = PCIinf->pPLXioAddr:
                                                                HalTranslateBusAddress ( PCIBus, BusNm, mema, &Mem, &memb ); -
PCIResources[2].PhysicalAddress.LowPart = Mem;
                                                                PCIinf->PCIMemAddr = (ULONG) MmMapIoSpace(
PCIResources[2].Length = Size;
                                                                 memb.
mema.LowPart = (ULONG) Mem;
                                                                Size
mema.HighPart = 0L;
                                                                FALSE
Mem = (ULONG) 0 \times 0001;
HalTranslateBusAddress( PCIBus, BusNm, mema, &Mem, &memb ); ①
PCTinf->PLXioAddr = memb.LowPart;
                                                                 // ドライバが使用する論理アドレス
                                                                 pExtension->PCIRegPointer
// PLX Mem
                                                                 (PKIT1050 REGISTER) (PCIinf->PCIMemAddr + KIT1050REGISTER
Size = PCIinf->PLXMemSize;
Mem = PCIinf->pPLXAddr;
                                                                 pExtension->PCI9054RegPointer = (PPCI PLX CONFIG)PCIinf->
PCIResources[0].PhysicalAddress.LowPart = Mem;
                                                                                                                      PLXAddr;
PCIResources[0].Length = Size;
mema.LowPart = (ULONG) Mem;
                                                                 // KIT1050 Board Reset
mema.HighPart = 0L;
                                                                pExtension->PCIRegPointer->CTRL_0 = CTRL0_BRST;
Mem = (ULONG) 0 \times 00000:
                                                                 // KIT1050 Int. Reset
HalTranslateBusAddress ( PCIBus, BusNm, mema, &Mem, &memb ): 0
                                                                pExtension->PCIRegPointer->CTRL_1 = 0;
PCIinf->PLXAddr = (ULONG) MmMapIoSpace(
                                                                 // pr.xqn54 のマスタ割り込み禁止
memb.
Size.
                                                                 // Shared Run Time Register (Local Interrupt Enable bit off)
FALSE
                                                                pExtension->PCI9054RegPointer->SHARED_ICS &= ~PCI90X0_LOCALINTENABLE;
);
                                                                 return ( STATUS SUCCESS );
// PCI Mem
Size = PCIinf->MemSize;
```

#### 〔リスト 1.11〕 リソースをシステムに登録

(DriverEntry.c/DriverEntry()から. Windows NT の場合)

```
Resource は Win2000 では登録の必要なし
  if ( Win2000 == 0 )
    if ( !PCTReportResourceUsage (DriverObject,
               &PCIResources[0],
               PCI NUMBER RESOURCE ENTRIES
                          ) )
     ntStatus = STATUS_INSUFFICIENT_RESOURCES;
     goto DriverErrorExit;
  // LEDを初期値で点灯する
  InitLED &= LEDMASK;
  pExtension->PCIRegPointer->LED = InitLED; /
  DriverObject->MajorFunction[IRP MJ CREATE]
                                                   = KIT1050CreateClose;
  DriverObject->MajorFunction[IRP MJ CLOSE]
                                                   = KIT1050CreateClose:
  DriverObject->MajorFunction[IRP MJ READ]
                                                   = KIT1050Read;
  DriverObject->MajorFunction[IRP MJ WRITE]
                                                   = KIT1050Write;
  DriverObject->MajorFunction[IRP_MJ_DEVICE_CONTROL] = KIT1050Dispatch;
  DriverObject->MajorFunction[IRP MJ CLEANUP]
                                                  = KIT1050Cleanup;
  DriverObject->DriverUnload
                                                   = KIT1050Unload;
    MmUnlockPagableImageSection( lockPtr );
    return( ntStatus );
DriverErrorExit:
                                                   (4)
  IoDeleteDevice( deviceObject );
   MmUnlockPagableImageSection( lockPtr );
    return( ntStatus );
```

#### (2) Windows 2000 の場合

Windows 2000 の場合, リソースはシステムから取得します. PCI ボードでは, メモリ/ボードのベースアドレスがボードのベースアドレスレジスタと変わることはありません. メモリ/

ポートサイズも Windows NT の取得方法に比べ簡単です.

ただし、割り込みベクタ(IRQ)に関しては、IRQが他のボードと共有することがあるため(というよりほとんど共有になるので)、必ずシステムからリソースを取得し、システムが割り

#### [リスト 1.12] 複数枚のボードを制御するときのルーチン

```
// 複数枚のボードを処理するとき
                                                                IoDeleteDevice( deviceObject );
for ( Board = 0 ; Board < 4 ; Board++ )
                                                               continue:
  // Device object の作成
 RtlInitUnicodeString (&deviceNameUnicodeString,
                     deviceNameBuffer(Board));
                                                             deviceObject->Flags |= DO DIRECT IO ;
 ntStatus = IoCreateDevice (DriverObject,
                                                             pExtension = deviceObject->DeviceExtension;
            sizeof(DEVICE EXTENSION),
                                                             RtlZeroMemory(
            &deviceNameUnicodeString,
                                                                   pExtension.
            FILE_DEVICE_MAPMEM,
                                                                   sizeof ( DEVICE EXTENSION )
            FALSE,
                                                             pExtension->DeviceObject = deviceObject ;
            &deviceObject
                                                             pExtension->InterfaceType = PCIBus;
                                                             pExtension->BusNumber = 0:
                                                             pExtension->InterruptObject = NULL;
  if ( !NT SUCCESS(ntStatus) )
                                                             pExtension->nCount = 0;
      return( ntStatus );
                                                             pExtension->TimerBusy = FALSE;
                                                             pExtension->TotalTimeout = FALSE;
  Information.pDriverObject = DriverObject;
  Information.pDeviceObject = deviceObject;
                                                             // API から CreateFile () により Open をかけるドライバ名
  Information.DeviceClassName.MaximumLength = 0;
                                                              Information.DeviceClassName.Length = 0:
                                                             RtlInitUnicodeString(&deviceLinkUnicodeString,
  Information.DeviceClassName.Buffer = NULL:
                                                                                  deviceLinkBuffer);
  // KIT1050 ボードの検出
                                                             ntStatus = IoCreateSymbolicLink (&deviceLinkUnicodeString,
  // 同じボードを検出しないようにする必要があります
                                                                                             &deviceNameUnicodeString[Board]);
 ntStatus = FindKIT1050_PCI( deviceObject, &Information );
                                                             if (!NT SUCCESS(ntStatus))
  // Clase Name 領域の開放
                                                               goto DriverErrorExit;
  ExFreePool ( Information.DeviceClassName.Buffer ):
  if (!NT_SUCCESS(ntStatus))
```

当てた IRO を使用する必要があります.

のは、HalAssignSlotResources()に引き渡すスロット情報を PCISlot 構造体に設定しています。ここで必要なのはスロット番号とファンクション番号ですが、複数のファンクション番号を設定したボードでなければ、ファンクション番号は 0 でかまいません。

HalAssignSlotResources()に引き渡す ClassName は、NULLでもとくに問題はありません(®). リソース情報は、pAllocatedResourcesに格納されます(®). 各リソースタイプにより、サイズと IRQを取得します. DDKの構造体が複雑なので、詳細は DDK のヘッダファイルをじっくり見てください. ®の変数 pResDescriptorに PCI ボードのリソース情報が入っています.

pAllocatedResources は、リソースの取得処理が終わったら必ず解放してください(⑩).

● 物理アドレスから論理アドレスへの変換(リスト 1.10) 最後に、取得した PCI ボードのメモリおよびポートの物理アド レスをドライバ内でアクセスできる論理アドレスに変換します. ここで変換した論理アドレスは、あくまでもドライバ内で使

ここで変換した論理アトレスは、あくまでもトライバ内で使用するもので、アプリケーションで使用するメモリマッピングではないことに注意してください。

OO HalTranslateBusAddress()で、Mem 変数にはベースメモリアドレスの内容が、ポートのときは 1、メモリのときは 0 を与えて、変換結果はmemb の 64 ビットアドレス構造体に格納されます。

そして、pExtension->PCIRegPointerとpExtension->PCI9054RegPointerがドライバ内で使用するKIT1050

#### 〔リスト 1.13〕アプリケーションプログラム側の記述

```
if ( Board == 0 )
    strcpy( string, "¥¥¥¥.¥¥KIT1050DRIVER0" );
if ( Board == 1 )
    strcpy( string, "¥¥¥¥.¥¥KIT1050DRIVER1" );
hPCIHdl = CreateFile( string, GENERIC_READ | GENERIC_WRITE,
```

ボードのメモリアドレスと PLX9054 のローカルコンフィグレーションレジスタのメモリアドレスになります(②).

PCI ボードの検出が終わったら、Windows NT の場合はリソースをシステムに登録します(リスト 1.11 の①).

KIT 1050 ボードに実装されている LED をレジストリパラメータの内容で点灯させます(②). 最後に、ドライバが処理する機能をシステムに登録します(③).

DriverEntry()が呼び出されたときにロックした Unload 関数のロックを解除して, DriverEntry()の処理は終わりになります(④).

複数枚のボードを制御するときはボード単位にデバイス オブジェクトを作成し、シンボリックリンク名をたとえば、 KIT1050DRIVERO、KIT1050DRIVER1 .....のようにします。 リスト 1.12 は簡単なサンプルです。アプリケーションから複数 のドライバをオープンするときはリスト 1.13 のようにします.

\*

Unload 関数、Create/Close 関数については、次回解説する予定です。

まるやま・はるお ドライバ屋



# 第二個

# 日本語でプログラミングを行う 開発環境 — TTSneo \*\*\*\*

今回紹介する「TTSneo」は、日本語でプログラミングを行う 開発環境である。TTSneoは、日本語でプログラミングができ るというだけでなく、タートルグラフィックやTTSneo 自体を マクロとして他のアプリケーションに組み込む機能など、さま ざまな機能をもったユニークな開発環境となっている。



146

## インストール

TTSneo は標準的なインストーラ形式になっており、インストール作業は非常に簡単である。ただし、TTSneo は Visual Basic で作られており、OS の標準ではないコンポーネントをいくつか必要とするため、そのままインストールしただけでは動かない場合がある。そういった場合は、TTSneo の配布元で配布されている Visual Basic 6.0 ランタイムを別途インストールする必要がある。

TTSneoでの開発は、付属する「TTS スタジオ neo」という統合開発環境(図1)上で行う、TTS スタジオ neo は、プログラムの入力、実行、ブレークポイントの指定、ステップ実行など、基本的な機能を備えたかなり本格的な開発環境である。特徴的なのは「機能バー」と呼ばれる画面右側の領域で、命令を簡単に挿入するための「挿入」、よく利用する命令セットをまとめて挿

#### 〔図1〕TTSneo の統合開発環境「TTS スタジオ neo」



#### DATA

名称: TTSneo 作者: ゆうと氏

Web サイト: http://hp.vector.co.jp/authors/

VA021321/index.html

現在のバージョン: 0.72(安定版),

0.74(開発版)[2003/07/16現在]

ダウンロードサイズ: 2.7M バイト(インストーラ)

入できる「素材」、カラーパレットから色を選択したり、TTSneoのアップデートなど、その他さまざまな機能を利用できる「ツール」など、開発をより便利に進めるための機能をたくさん盛り込んでいる。ツール自体もTTSneo自身で書かれており、自分で新しい機能を追加することも可能だ。また、「ネット」というタブには、IEコンポーネントを利用したブラウザ機能が組み込まれており、Webページを表示できる。開発中に必要な情報をWebから取得する、というのは非常によくあることなので、いちいちブラウザに切り替えずにWebページを参照できるこの機能は、プログラミング時の思考の分断を少なくでき、なかなか便利な機能だといえるだろう。

作成したプログラムは、TTSスタジオ neo 上でも実行できるほか、EXEファイルに変換することもできる。作成された EXEファイルは、プログラム+ラインタイムルーチンという形になっており、Visual Basic 6.0 ランタイムさえインストールされていれば、他のマシンで実行することもできる。



## TTSneo のプログラミング仕様 と機能

簡単な TTSneo のプログラムをリスト1に示す. これは、指定したテキストファイルの句読点を「、」「、」から「、」「。」に置き換えて、新たに別のファイルとして保存するプログラムである. すでに述べているように、TTSneo のプログラムの最大の特徴は、日本語でプログラムを記述するという点であり、このサンプルプログラムもすべて日本語で書かれている. 「データは」で



#### Column

#### 作者に直撃インタビュー

TTSneo の作者ゆうと氏に、メールでのインタビューに答えていただいた。

- Q: TTSneo を開発しようと思ったきっかけは何ですか?
- A:パソコンの難しい知識がなくても、すぐに始められるプログラミング言語を作りたかったということが、いちばんの動機です. "プログラムを作る"というと、どうしても一般の人からは理解できない特別なことのように思われがちです。そうではなく、ワープロで文章を打つことや、グラフィックソフトで絵を描くことと同じように、プログラムを作るということがあってもいいのではないかと思っています。そのとき中学の授業で「ロゴライター」に出会って、日本語でソフトが作れたら便利ではないかと感じ、TTSを作り始めました。
- ○:今後どのようなに発展させていく予定ですか?
- A:うーん。まだ高速化や安定化といった大きな課題を抱えているので、まずはこれらの課題を解消していきたいと思います。それには、Visual Basic 以外の言語で改めて書き直し、コンパイラの実装などもしていきたいと思います。今後ものんびりながら、改良を続けて成長させていきたいと思います。
- Q:開発に際して苦労した点はどこですか?
- A:いろいろあります。Visual Basicで作っているのでどうしても処理が遅く、どうしたら高速化できるか考えたり、ユーザーの要望を反映させるために、あの手この手でかなり無理をして機能を実装しています。また、開発を始めたのが中3の頃で、プログラミングに関する知識があいまいで、うまくコーディングできず、バグ修正にも苦労しました。
- **Q**:作者として、TTSneo のここがすごい!という点を教えてくだ さい
- A:エディタです、TTSスタジオ neo では、VB ライクな RAD 環境が標準でサポートされ、コードを入れることなく、視覚的かつ短時間でウィンドウの作成ができます。そういった開発環境は、もちろん Visual Studio .NET や Delphi にもあります

が、TTS はテンプレートなども備えているので、より簡単に 使えるのではないかと思っています。

- **○**:作者として、TTSneoの弱点……という点を教えてください。
- A: 処理速度です. 処理速度が速ければとても良い言語だという 意見もたくさん寄せられています. 今後, コンパイラを作っ てこの弱点をなくしたいと思います.
- **Q**:TTSneo は、どんなものを開発するのに向いていると思いま すか?
- A:エディタやツールなどの一般的な Windows アプリケーションの開発です。私自身、実用的なアプリケーションを作るのが得意なので、命令もサンプルも実用的なツールを作るためのものが多くなっています。残念ながら処理が遅いので、大量データの処理や速度を要求するゲームを作るという用途にはあまり向いていないと思います。
- **Q**:日本語でのプログラミングをすることの意義について、どう 考えていますか?
- A:やはり、英語に抵抗をもつことなくプログラミングできるという点は大きいと考えています。とはいっても、JavaやCといった言語と同じレベルでTTSがあるということではありません。TTSはプログラミングの「最初のステップ」であって、TTSでプログラミングの感覚を知ってもらい、プログラミングに興味をもったらJavaやC、.NETなどの、「次のステップ」へ進んでもらえればと思います。

といっても、TTSで十分だという方もおられますので、そういう場合はTTSでソフトを作るというのでOKです。そういうスタイルを私は考えています。

- Q:フリーの開発環境の意義について、どう考えていますか?
- A: 気軽に始められ、いろいろな種類の言語を試すことができるということだと思います。昔は何万円もした高価なソフトを買わないといけなかったので、一つの言語に固まってしまい、いろいろな言語を使ってみるということが難しかったのですが、最近では Java も.NET も最低限の開発環境は、無料でダウンロードできるので、自分の使いやすい/用途に合ったプログラミング言語を選ぶことができるのが利点だと思います。

始まる3行以外は、比較的自然な日本語になっていることがわかる.

「データは」で始まる 3行についてはやや意味がわかりづらいが、これらの行では「データ」という変数に値を代入する処理が行われている。「 $\circ$  o は  $\Delta\Delta$ 」という記述が、「 $\circ$  o」という変数に「 $\Delta\Delta$ 」の示すデータを代入する、という処理を行うものである。そして、これらの行では代入元のデータが「開け(ファイルを開き内容を取得する関数)」「置き換え(文字列の置換を行う関数)」という関数の戻り値になっている。したがってこの 3行は、ファイルからデータを「データ」という変数に読み込み、「、」を「、」に、「、」を「、」に置き換える処理を行っていることになる。

TTSneoにおける命令/関数は、「~を表示」「終了」といった体言止めの形と、「繰り返せ」「塗れ」といったような命令形のもの

#### 〔リスト 1〕「,」「.」を「、」「。」に全置換するプログラム

- 'TTSneo サンプルプログラム
- ′指定したファイルの「,」「.」を
- ′「、」「。」に全置換する

#### 開くファイルを選択

もし 選択ウィンドウのファイル名 が 「」 なら 終了

データは 開け (選択ウィンドウのファイル名)

データは 置き換え(データ、「,」、「、」)

データは 置き換え(データ、「.」、「。」)

保存するファイルを選択

もし 選択ウィンドウのファイル名 が 「」 なら 終了

選択ウィンドウのファイル名 へ データ を保存

が存在する. なお, 次のように命令の後に言葉を追加してあっても, 問題なく解釈される.

「こんにちは」を表示しろ

TTSneo では、プロシージャを作成することもできる。プロシージャは「手順は  $\circ \circ (\circ \circ$ は名前)」~「終わり」で囲むことで作成できる。次のように、再帰させることも可能である。

手順は らせん

もし 長さ>200 なら ぬける

前へ長さ

左へ 角度

長さは, 長さ+2

らせん

終わり

インタビューにもあるように TTSneo の文法は、「自然に話すような日本語でプログラムを作る」ことを中心に考えられているわけではない。日本語はあくまで、プログラミングをわかりやすくするための手段としてとらえられており、TTSneo をマスタしたユーザーが、Visual Basic や Java などの異なる言語に移行する際に、できるだけスムーズに移行できることを第一に考えているとのことである $^{12}$ . そのため、条件分岐などを利用する際も「もし。は  $^{12}$  なら」という書き方だけでなく、「もし。 $^{12}$  なら」という BASICの「IF  $^{12}$  = THEN」に相当する書き方ができるなど、互換性の高い書き方もサポートしている。また、書き方によってはあまり日本語としては正しくはなくなってしまうが、そもそも英語を利用している BASICや C言語なども、正しい英語で記述できるわけではないので、そういったプログラミング言語における英語の役割を日本語に置き換えたものである。と考えるとわかりやすいかもしれない.

続いて、TTSneo に搭載されている機能だが、一般的な計算

#### 〔図 2〕TTS スタジオ neo はウィンドウの編集も可能



処理やファイル操作のほか、GUIの利用、動画や音楽の再生、タートルグラフィック、Direct3D、FTP/HTTPによるインターネットアクセス、正規表現など、幅広く用意されており、ホビーから実用的なものまで、さまざまなアプリケーション作成に対応している。また、プラグインやActiveXなどを利用して、新たに機能を追加することも可能になっており、C/C++やVisual Basic などのほかの言語を知っていれば、それらの言語と連携させることも可能になっている。



# GUIプログラミングとオブジェクト

さまざまな TTSneo の機能の中でも特徴的なものとして、今回は「GUI プログラミング」、「タートルグラフィック」、「TTS For Application」を紹介する。まずは、GUI プログラミングである。

TTSでは、ウィンドウ上にボタンやテキストボックスを配置したGUIアプリケーションを作成することもできる。しかもTTSスタジオneoには、ウィンドウをデザインするツールがついており、非常に簡単に画面の設計を行える(図2)。このツールを利用してウィンドウをデザインすると、それが自動的にTTSneoのコードに変換されるようになっている(リスト2)。

TTSneoでは、GUI コントロールは「オブジェクト」として管理される。利用可能なオブジェクトは、テキストボックスやボタン、チェックボックスといったものから、IE ブラウザコンポーネント、ツリービュー、リッチテキストなど、標準的なコントロールはすべて利用することができる。

オブジェクトを生成するコマンドは「作れ」である。オブジェクトごとに固有の名前を付けることはできず、**リスト2**のように、「オブジェクト 番号 を作れ」と指定することで、画面上にオ

#### 〔リスト 2〕TTS スタジオ neo によって自動生成されたプログラム

```
手順は ウィンドウ1の表示
ウィンドウ1を使う
'ウィンドウ1
ウィンドウ1の中の大きさを 252, 173 へ変えろ
   その名前を「テスト」へ変えろ
   その背景を &h800000F へ変えろ
フレーム1を作れ
   その位置を 10, 10 へ変えろ
   その大きさを 230, 100 へ変えろ
   その名前を「| へ変えろ
テキスト1を作れ
   その位置を 20,30 へ変えろ
   その大きさを100,20へ変えろ
ボタン1を作れ
   その位置を 80, 120 へ変えろ
   その大きさを 90,30 へ変えろ
   その名前を「OK」へ変えろ
ステータスバー1を作れ
   その位置を 0、153 へ変えろ
   その大きさを 252、20 へ変えろ
′ウィンドウ1終わり
ウィンドウ1を表示
終わり
```

注1:「TTSneoの開発指針」http://yutopia.s8.xrea.com/x/tech/point.html

#### 〔リスト3〕タートルグラフィックで星を描くプログラム

タイトルは 「星を書く」 ウィンドウを表示 出てこい ペンを上げろ 前へ 30 左へ 90 前へ 80 右へ 180 ペンを下ろせ 5回繰り返せ 前へ 160 右へ 144 繰り返し終わり

ブジェクトが表示され、オブジェクトの種類と番号で、それぞれのオブジェクトを管理することになる。また、番号で管理するのが煩雑になる場合は、次のように各オブジェクトに別名をつけ、その名前で管理することも可能になっている。

ボタン1をOKボタンとして作れ

GUIを利用したプログラミングのスタイルは、一般的なWindowsのプログラム言語と同様に、「ウィンドウ1のボタン1をクリック」、「ウィンドウ1のボタン1でマウスのボタンを上げる」といったイベントプロシージャをつくり、そこにそれぞれのイベントが発生した際の処理を記述する。また、オブジェクトの属性(プロバティ)を参照、変更する場合は、「『オブジェクト』[番号]の『プロバティ名』」という指定の仕方をする。たとえば次の例では、テキストボックスのサイズを変更するように指定している

テキスト1の大きさを100,20へ変えろ

イベントを受け付けるようにするには、「待機」という命令を利用する。「待機」はいわゆるイベントループを生成する命令だ。 TTSneoのプログラムは、通常は先頭から1行ずつ実行されていくが、この命令が実行されると、プログラムの実行はそこで停止し、イベント待機モードに切り替わる。

なお TTSneo では、GUI コントロールのほかに、印刷を行う「プリンタ」、MS Office 製品を扱う「ワード」、「エクセル」などのオブジェクトも利用可能である。たとえば、次のサンプルは Excel を起動して、セルの値を変更するプログラムである。

エクセルを起動

エクセルのワークブックを追加

エクセルのセル(A1)を,「あいうえお」に変えろ

こちらは GUI コントロールとは異なり、「作れ」で生成する必要はなく、また番号を指定する必要もない。

また、「拡張オブジェクト」という名前のオブジェクトは、 ActiveX クラスやコントロールを呼び出して利用するためのオ ブジェクトである。これを利用すれば、そのマシンに登録され

#### 〔図3〕タートルグラフィックで描いた星



た ActiveX はすべて利用可能である.

さらに TTSneo には、「その」、「この」という指示代名詞のオブジェクトが存在する。「この」はイベントプロシージャ内において、イベントが発生しているオブジェクトを指定するもので、こちらは Java における「this」などと同様の働きをもつものである。一方「その」は、最後に操作したオブジェクトを示すもので、リスト2でも使われているが、同じオブジェクト名を何度も繰り返さずに、プログラムを記述することが可能になるものだ。



## タートルグラフィック

TTSneoには「タートルグラフィック」という機能がある。これは、LOGOという言語に実装されていた機能で、タートル(カメ、線を描画するためのカーソルの役割をする)を使って線を描画していく機能だ。タートルには向きがあり、その移動は「前へ。歩進む」、「。度右に方向転換する」といった、現在のタートルの位置と向きを基準として移動の指定を行う。これを繰り返し命令と組み合わせて利用することで、さまざまな図形を描画できるわけだ。TTSneoは、ロゴライター<sup>注2</sup>という日本語を利用したLOGOの実行環境に影響を受けているとのことで、その流れからタートルグラフィックの機能が実装されている。

TTSneoでは、タートルはまさにカメの形をしており、「出てこい」という命令でウィンドウ上に表示することができる。タートルは「前へ」、「後ろへ」という命令で前後へ線を引き、「右へ」、「左へ」という命令で角度を指定することで、方向転換を行える。「ペンを上げろ」と命令すれば、移動しても線が描画されないようにすることも可能だ。ループ処理と組み合わせることで、複雑な模様も簡単に描ける。たとえばリスト3のように記述すれば、図3のような星を描くことができる。

サンプルプログラムに入っている「あみだくじ<sup>注3</sup>」では、ター

注2:ロゴジャパン(株)が販売する LOGO の実行環境. http://www.logo.co.jp/(現在アクセス不可)

注3:サンプルの投稿作品フォルダに入っている「あみだくじ.tts」

トルグラフィックを利用して、カメにあみだくじを解かせている(**図4**). カメを単なるカーソルとしてだけでなく、このように画面上の登場キャラクタとして利用するのも面白い. ちなみに、カメを別のキャラクタに変更する機能もついている.



## **TTS For Application**

TTSneo は、ランタイムルーチンの ActiveX DLL 版が用意されており、これを利用すると、ActiveX に対応した開発言語の中に TTSneo のランタイムを組み込んで、マクロのような働きをさせることができる。これは「TTS for Application (TTSA)」と呼ばれる。

TTSneoの ActiveX DLL(TTScript.dll)は、本体とともにインストールされているが、TTSAに関するサンプルやドキュメントは、TTSneo本体とは別に、「TTSneo SDK」というセットとして配布されている。その中には、Visual Basic 6.0からTTSAを呼び出すためのサンプルなどが入っている。

Visual Basic 6.0 から TTSA を呼び出すには、あらかじめ、TTSCript.dllを参照するように設定しておき(プロジェクトメニューの「参照設定...」を選択し、「日本語プログラミング言語」にチェックを入れる)、**リスト4**のように記述する.指定するクラス名は「TTSCript.TTS」だ.プログラムの実行には「Run」メソッドを利用する.ほかにもファイル名で指定したファイルを実行する RunFile メソッドなども用意されている.ただし、これらのメソッドは値を返すことができないので、

〔図 4〕「あみだくじ」カメが問題を解いているところ



#### 〔表1〕コールバック用に用意されたイベント

| GetData | TTSAが、呼び出し元からデータを取得しようとした場合<br>に発生する。例:××は、呼び出し元の。。                                  |
|---------|--------------------------------------------------------------------------------------|
|         | TTSAが,呼び出し元にデータを渡そうとしたときに発生<br>する.例:呼び出し元の○○を「××」に変える                                |
| DumCmd  | TTSA が、呼び出し元に処理を実行させたいときに発生する。例:呼び出し元の $\lceil \circ \circ \rceil$ を $\times \times$ |

TTSAから値を返したい場合には、実行後にGetSetInfoメソッドを利用して、変数の値を取り出す必要がある.

また、オブジェクト参照変数の定義の際に WidthEvents を指定し、「呼び出し元」というオブジェクト名を利用して、TTSAからコールバックを行うことができるようになる(リスト5). Viaual Basic 側では表1のような三つのイベントが用意されており、TTSAと呼び出し元が自由にデータのやり取りを行えるようになっている。リスト5の例では、TTSAのプログラムが実行されると、呼び出し元がコールバックされ、そのときに呼び出しに利用された名詞と動詞が(Visual Basic 側で)表示される.

TTSAは、自作のアプリケーションにマクロとして組み込んだり、Excel や Word の VBA から呼び出して利用するなどの利用方法が考えられる。TTSneo を採用することで、プログラミングにあまりなじみのない人にでも扱うことが比較的容易なマクロ機能を実装できるのではないだろうか。

なお TTSA を利用するには、Visual Basic 6.0 のランタイムと TTScript.dll が必要になるため、TTSA を利用したアプリケーションを配布する場合には、このファイルを一緒に配布する必要がある。また、TTScript.dll ダウンローダという最新版の DLL をダウンロードしてくれるツールも公開されており、DLL ファイル本体の代わりにこちらをつけることもできる。

#### おわりに

TTSneoの作者であるゆうと氏は、現役の大学生である。そして、TTSの開発を開始した当時は中学生だったそうだ。そういったこともあり、TTSneoは若い世代、もっといえば小中学生にでも、比較的容易にプログラミングが体験できるような配慮がたくさんされている。それは単に「日本語」でプログラミン

#### 〔リスト 4〕Visual Basic から TTSA を呼び出しているところ

Private Sub Command1\_Click()
Dim cTTSA As TTScript.TTS
Set cTTSA = New TTScript.TTS
cTTSA.Run "「こんにちは」と表示", 0
End Sub

#### 〔リスト 5〕Visual Basic で TTSA からのコールバックを実現する プログラム

Option Explicit
Dim WithEvents cTTSA As TTScript.TTS

Private Sub Command1\_Click()
 cTTSA.Run "呼び出し元の「何か」を探す", 0
End Sub

Private Sub cTTSA\_RunCmd(Doush As String, Meish As String, NotFound As Boolean)
 MsgBox Meish + "を" + Doush
End Sub

Private Sub Form\_Load()
 Set cTTSA = New TTScript.TTS
End Sub

グが可能である、というだけではない。たとえばマニュアルでは、2匹のカメが登場し、その掛け合いでプログラミングの基礎が学べるしくみになっている(図5)。さらに、マニュアルは漢字に振り仮名が振られたものも公開されており、「難しい専門用語」や英語といった、プログラミングを学ぶ上での、プログラミング以外の障壁がなるべく低くなるように工夫されている。

そして事実、TTSneoのユーザーグループには、そういった 若い世代の開発者が多く参加しており、前述のマニュアルの作 成やプログラミングコンテストの開催など、活発な活動が行われ、楽しくプログラミングを行うことができる環境作りに、大いに貢献している。

筆者がプログラミングを学びだしたのも小学生の頃だったが、その頃はまだインターネットも普及しておらず、プログラミングに関する情報といえば大人向けのものばかりで、何かと苦労させられた覚えがある。もちろん、その苦労が楽しかった、という面もあるので、いちがいにそれを否定するわけではないが、TTSneoのような、若年層に向けてアピールされた言語が存在する状況は、うらやましくも感じる。

TTSneo は、インタビューで作者のゆうと氏も述べているように、速度の問題などの課題は残しているが、機能も豊富で、プログラミングを気軽に始められる環境としては、なかなかすぐれているといえるだろう。

日本語でのプログラミング環境を語ると、「はたして日本語でプログラミングを行う必要があるのか」という話題がついてまわるが、プログラミングを学ぶ上で重要なのは、自分(=人間)のやりたいことを、プログラミング言語という「機械のわかる処理手順」に翻訳変換する作業であり、その作業のプロセスは、どんな言語であろうと関係ない。むしろ、「英語」という日本人にとって障壁となりやすい部分がないことで、そういったプログラミングの基礎をよりきちんと学べるようになるメリッ

〔図 5〕 TTSneo のチュートリアルマニュアル



トもある。英語というだけでプログラミングを「何だか難しそう」としり込みしている人たちも、日本語なら、「これなら自分でもわかるかもしれない」という気になるかもしれない。そういう意味でも、日本語でプログラミングができるという選択肢があることは非常に重要で、意義のあるものではないだろうか、と筆者は考えている。

TTSneo でプログラミングを始めた人たちが、それをきっかけに、さまざまな分野で活躍してくれるようになることを、期待したい。

みずの・たかあき

平成 15 年度文部科学省委託事業「地域社会人キャリアアップ推進事業」

## 電気回路を扱う技術者のための 実感!電気数学

主催:東京湾岸地域大学間コンソーシアムによる社会人キャリア・アップ運営協議会(TOBAC)

- •講 師:関口 隆〔横浜国立大学名誉教授(電子情報学)・横浜創英短期大学情報処理学科教授〕
- •会場:神奈川県立川崎高校(川崎市)
- **定** 員: 30 名程度(先着順)
- 対象:おもに社会人技術者受講料:無料
- 申し込み方法:インターネットによる申し込み
   TOBACホームページ(http://www.tobac.ynu.ac.jp/)のオンライン受講申し込みフォームより申し込み
- 問い合わせ: TOBAC 事務局 Tel.(045)339-3811 Fax.(045)339-3812 E-mail: info@tobac.ynu.ac.jp

| 月日        | 時間          | 講義名             |
|-----------|-------------|-----------------|
| 10月10日(金) | 18:00-20:00 | 正弦波の発生とその表現     |
| 10月17日(金) | 18:00-20:00 | 直流回路            |
| 10月24日(金) | 18:00-20:00 | 交流回路            |
| 10月31日(金) | 18:00-20:00 | インピーダンスとアドミッタンス |
| 11月 7日(金) | 18:00-20:00 | 共振回路            |
| 11月14日(金) | 18:00-20:00 | 相互誘導回路          |
| 11月21日(金) | 18:00-20:00 | アナログ回路          |
|           |             |                 |

注:1日単位の受講も可能.

# メモリプロファイリングツールを 開発する —— 実践編



#### はじめに

この解説の前編(本誌 2003 年 8 月号)では、まず、Intel 社の 32 ビットマイクロプロセッサ (IA-32 と記す)のハードウェア性 能モニタ機能について紹介し、次に Intel Pentium4/Intel Xeon プロセッサで強化された機能について詳細に解説した。後編となる今回は、Pentium4/Intel Xeon の性能モニタ機能を利用して実装したメモリプロファイリングツールについて、利用方法、実装などを解説する。具体的には、精密なイベントベースサンプリング (PEBS: Precise Event Based Sampling)により、アプリケーションの性能上のボトルネックが容易に発見できることを示す。

PEBSにより、割り込みハンドラを起動するレイテンシやそのオーバヘッドが削減され、しかもイベント発生の正確な特定と、その時点での精密なコンテキストを入手できるようになった。PEBSを利用することで、PentiumIIIなど従来のPentium系プロセッサでは不可能だった精密なサンプリングも可能になった。筆者らはPEBSの機能にいちはやく注目し、PEBSを利用したメモリプロファイリングツールを開発した。本稿では開発の動機や背景を紹介するとともに、メモリプロファイリングツールの実装およびそれを利用した性能測定と分析方法を解説する。

CPUの処理速度は年率数ト%で向上しているものの、メモリの処理速度の向上は年率数%といわれている。つまり、メモリの処理速度は CPU 処理速度の向上率に比べて低い。結果、CPUとメモリの速度のギャップは年々広がっている。たとえば最近の CPUでは、メモリアクセス(キャッシュミス)のペナルティは 200 倍近くあり、メモリアクセスのコストは一定という仮定のプログラミングモデルは破綻した。表1に、Intel Xeon 2GHz/メインメモリ 1Gバイトでのアクセスコストの実測値を

〔表 1〕Intel Xeon 2GHz/メインメモリ 1G バイトでのアクセスコスト

| メモリ階層  | アクセスコスト |
|--------|---------|
| L1     | 1ns     |
| L2     | 9ns     |
| メインメモリ | 196ns   |
|        |         |

示す.より高性能なソフトウェアを実現するためには、メモリ 階層を意識したプログラミングモデルが必要となってきた.

たとえば、SPECベンチマークに代表される科学技術アプリケーションの CPI (Clock Per Instruction) に比べ、商用ワークロード (OLTP: On Line Transaction Processing) の CPI が大きいことが知られている。要因の一つは、メモリアクセス時のストールである。たとえばリレーショナルデータベースのメモリアクセスはポインタを使ったランダムアクセスが多いので、科学技術アプリケーションの単純な配列の順アクセスに対する最適化は、単純には適用できない。そこで、メモリアクセスに注目した性能向上ツールが必要とされている。

しかし、従来のタイマ割り込みによるプログラムカウンタ (PC: Program Counter)のサンプリング手法によるプロファイリングでは、キャッシュミスなど、メモリの動的特性に関する詳細情報は得られない。そのため開発者は、おおまかなホットスポット(実行時間を多く消費している場所)の位置を推定できても、なぜそこで実行時間がかかるかを特定するのが困難だった。たとえば、命令がストールしているのはデータメモリのキャッシュミスなのか? 分岐予測の失敗なのか? それとも単に実行にコストがかかる命令を実行中だったのか? ……などに関する情報が得られない。さらに、最近のプロセッサではアウトオブオーダ実行、深いパイプラインや投機的実行などにより、イベントを発生させた命令とPCの値が必ずしも一致しないので、前述したプロファイリングだけで問題を特定することがますます困難になっている。

Pentium4/Intel Xeon は、この問題に対し、ハードウェアによる性能モニタ機能(18個の性能モニタカウンタ)を備え、さまざまなメモリアクセスイベント(L1/L2キャッシュミス/TLBミスなど)を測定できる。また PEBS 機能により、以前の CPUでは不可能だった、より精密なプロセッサの状態のサンプリングも可能となった。そこで筆者らは、Pentium4/Intel XeonのPEBSを利用してメモリプロファイリングツールを実装し、リレーショナルデータベース(PostgreSQL)や Linux カーネルのプロファイリングを行い、ツールの有効性を実証した。このツールを利用することで、メモリイベント(L1/L2キャッシュミスなど)のホットスポットを容易に発見できた 50,60.

## メモリプロファイリングツールを開発する

---実践編

## 1. メモリプロファイリングツール利用の ための準備

筆者らは、Pentium4/Intel Xeonプロセッサのハードウェア性能モニタ機能を利用した、hardmeterというツールをGNU/Linuxプラットホーム上に実装した。ここでは簡単に、そのインストール方法および利用方法を紹介する。

#### 1.1 インストール前の準備

hardmeter は、Pentium4/Intel Xeon プロセッサのみをサポートするので、インストールするマシンがそれを満たしているか確認する(図1). 図1のように、vendor\_idがGenuineIntelでcpu familyが15であればよい.

#### 1.2 インストールに必要なファイルの準備

hardmeter に必要なファイルは次のとおりで、①と②は次の Webページ (http://sourceforge.jp/projects/hardmeter/)にある.

- ① hardmeter のソースコード
- ② perfctr のソースコード
- ③ Linux カーネルのソースコード

hardmeter が、今回開発したメモリプロファイリングツールの本体である。執筆時点での最新版は、hardmeter 2003-0603である。デフォルトの Linux では、IA-32 のハードウェア性能モニタ機能が有効になっていない。そこで、それを有効にするカーネルパッチが必要で、筆者らは perfctr というパッチを使った。今回対応した perfctr は、2.5.4 である。

Linux カーネルのソースコードは、http://www.kernel.org/などから入手できる.

#### 1.3 hardmeter 対応カーネルの作成

#### ソースの展開

ダウンロードしたソースを展開する. ここでは例として, Linux Kernel 2.4.20 を利用する.

cd /usr/src

tar xvfj linux-2.4.20.tar.bz2

tar xvfz perfctr-2.5.4.tar.gz

tar xvfz hardmeter-030603.tar.gz

#### パッチを当てる

perfctr にパッチを当てたうえで、perfctr の update-kernel を実行する.

(perfctrへのパッチ当て)

cd perfctr-2.5.4

patch -p1 < ../hardmeter-030603/patch/

perfctr-2.5.4.dif

#### (カーネルの perfctr 対応)

cd ../linux-2.4.20

../perfctr-2.5.4/update-kernel

そのほか、作業するかどうかは任意だが、linux-2.4.20/

#### 〔図1〕プロセッサの確認

\$ cat /proc/cpuinfo processor : 0 : GenuineIntel vendor id cpu family : 15 : 1 model model name : Intel(R) Pentium(R) 4 CPU 2.00GHz stepping : 2 : 1977.487 cpu MHz cache size : 256 KB fdiv bug : no hlt bug · no f00f\_bug : no coma bug : no : yes fpu fpu exception : ves cpuid level : 2 : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm bogomips : 3945.26

Makefile の先頭の,

EXTRAVERSION =

を.

EXTRAVERSION = -hardmeter

と変更することをおすすめする。こうすると、'uname -r'を 実行したときに、'2.4.20-hardmeter'と出力され、今動い ているカーネルが hardmeter 対応かどうかの確認がしやすく なる。

また、カーネルの分析のために、CFLAGS に-g(デバッグシンボル付きでコンパイルする)を追加しておくとよい。 具体的には、

CFLAGS := \$(CPPFLAGS) -Wall -Wstrict

-prototypes -Wno-trigraphs -02

-fno-strict-aliasing -fno-common

を,

CFLAGS := \$(CPPFLAGS) -Wall -Wstrict

-prototypes -Wno-trigraphs -02

-fno-strict-aliasing -fno-common -q

にする.

#### ● カーネルの作成とインストール

まず perfctr を有効にする. " make config ", " make menu config ", " make xconfig "のいずれかを実行して,

Processor type and features  $\rightarrow$ 

Performance-monitoring counters support  $\rightarrow$  &tinestyle the tensor to the support that the

Performance-monitoring counters support

Virtual performance counters support を有効にする。ほかの項目は有効にしてもしなくてもよいが、hardmeterを使うには少なくとも Virtual performance counters support が有効になっている必要がある。



#### 〔図 2〕ebs のコマンドシンタックスとサポートするイベントタイプ

```
Usage: ./ebs (-u | -k) [-o OUTFILE] [-i INTERVAL] [-c COUNT] -t TYPE EXE OR PID
 options
   -11
                 - sample user-mode events
   -k
                 - sample kernel-mode events
   -o OUTFILE
                - store sampled data to file
   -i INTERVAL - sampling interval(default: 10000)
   -c COUNT
                - max sampling count (default: 2000)
                - event type to sample
   -t TYPE
   -m NAME, NAME... - event masks
 help options
                 - show event types
   -h
   -h TYPE
                 - show event masks
```

60% DE 1919 EL 600 EL 600 EL 610 EN DE 1911 EN DE 1911 EL 611 EL 611

#### (a) コマンドシンタックス

```
imprecise at-retirement event:
     instr_retired - instruction retired
     uop retired
                     - uops retired
precise front-end event:
     memory_loads
                    - memory loads
     memory stores
                     - memory stores
                     - memory loads and stores
     memory moves
precise execution event:
     packed_sp_retired - packed single-precision uop retired
     packed dp retired - packed double-precision uop retired
     scaler sp retired - scaler single-precision uop retired
     scaler_dp_retired - scaler double-precision uop retired
     64bit_mmx_retired - 64bit SIMD integer uop retired
     128bit mmx retired - 128bit SIMD integer uop retired
     x87 fp retired - floating point instruction retired
     x87_simd_memory_moves_retired - x87/SIMD store/moves/load uop retired
precise replay event:
     11_cache_miss - 1st level cache load miss
                     - 2nd level cache load miss
     12 cache miss
     dtlb load miss - DTLB load miss
     dtlb_stor_miss - DTLB store miss
     dtlb_all_miss
                    - DTLB load and store miss
     mob_load_replay_retired - MOB(memory order buffer) causes load replay
     split load retired - replayed events at the load port.
```

(b) サポートするイベントタイプ

#### また,

Processor type and features → とたどっていって,「Symmetric multi-processing support」か「Local APIC support on uniprocessors」のどちらかを有効にする。上記二つの項目以外は、環境にあわせて任意に設定する。次に、カーネルとカーネルモジュールのコンパイルを行う。カーネルソースのルートディレクトリで、

make dep; make clean; make bzImage make modules; make modules\_installを実行し.

cp arch/i386/boot/bzImage /boot/

vmlinuz-2.4.20-hardmeter

cp System.map /boot/

System.map-2.4.20-hardmeter とする(linux-2.4.20/Makefileの EXTRAVERSIONを変え ていない場合は-hardmeterは不要).

上記のコマンドで、カーネル本体と system map を/boot の下にコピーする。次に、lilo などのブートローダの設定を変えて、

/boot/vmlinuz-2.4.20-hardmeter のカーネルで再起動する.

カーネル再起動後,

# mknod /dev/perfctr c 10 182

# chmod 644 /dev/perfctr

とする. 以上で、hardmeter 対応カーネルの作成は終了である.

1.4 hardmeter ユーザーアプリケーションのコンパイルまず, 'uname -r'を実行して hardmeter 用に作成したカーネルが立ち上がっているかどうか確認する.次に, hardmeterのソースファイルのルートディレクトリに移動して make を実行する. src/ebs, src/libhardmeter.oが作成されたら,コンパイルは完了である.

## 2. メモリプロファイリングツールを使う

src ディレクトリに ebs (イベントサンプリングツール) がある. ebs のコマンドシンタックスおよびサポートするイベントタイプを図2に示す.

## メモリプロファイリングツールを開発する

-- 宝践編

#### 〔図 3〕、pwd 'を実行したときのユーザーモードでの1次キャッシュミスのイベントを1000回ごとにサンプリングする

```
$ ./ebs -u -i 1000 -t ll_cache_miss pwd
#eflags liner_ip
                   eax
                             ebx
                                      ecx
                                                        esi
/usr/src/hardmeter-030603/src
00000246 40006edc bffff428 400124b8 00000000 bffff428 bffff428 4200bde8 bffff478 bffff3a0
00000246 40007a80 40000658 400124b8 400121e8 00000000 400121e8 00000000 bfffff3e8 bffff3b0
00000283 40008827 00000000 400124b8 4212a3d8 00000007 4201513c 00000000 bffff4f8 bffff4b0
00000206 420261f2 00000000 4212a2d0 00000065 421185c0 4212e258 00000000 bffff5a8 bffff570
00000202 40009ff0 0d696910 400124b8 420080c8 40024020 000004d7 40012c30 bffff910 bffff8c8
# start time : Sun Jun 22 22:12:47 2003
# user
            : ves
# kernel
             : no
             : 1000
# interval
             : 5
# count
             : 1518880
# tsc
# event name : l1_cache_miss
# description: 1st level cache load miss
 event mask : + nbogus
               - bogus
```

#### 〔図 4〕生データ

```
$ head pebs
#eflags liner ip
                    eax
                             ebx
                                               edx
                                                        esi
                                                                 edi
00000293 c0245012 f7bdcac8 f7bdca80 00000000 00000000 f7d02c00 0000001e 40000000 f679df04
00000206 c0142bba 00000b00 ef11ed00 00000b00 f63c8000 0000a9e1 ef11ed80 00000000 f63c9e74
00000202 c0142bba 00000b00 ed775100 00000b00 f63c8000 00009657 ed775180 00000000 f63c9e74
00000202 c0142bba 00000b00 ebef9200 00000b00 f63c8000 000082ce ebef9280 00000000 f63c9e74
00000202 c0142bba 00000b00 eac00780 00000b00 f63c8000 00006f52 eac00800 00000000 f63c9e74
00000206 c0142bba 00000b00 e8ca6780 00000b00 f63c8000 00005bc9 e8ca6800 00000000 f63c9e74
00000202 c0142bba 00000b00 e73b2d80 00000b00 f63c8000 0000483b e73b2e00 00000000 f63c9e74
00000206 c0142bba 00000b00 e6238980 00000b00 f63c8000 000034be e6238a00 00000000 f63c9e74
00000202 c0142bba 00000b00 e4108b80 00000b00 f63c8000 00002134 e4108c00 00000000 f63c9e74
```

# 2.1 メモリプロファイリングツールを利用した性能測定 図3の例では、pwdを実行したときのユーザーモード(-u)での1次キャッシュミス(-t l1\_cache\_miss)のイベントを1000回(-i 1000)ごとにサンプリングした。eflags、論理アドレス、各レジスタ値(eax/ebx/ecx/edx/esi/edi/ebp/esp)の値を取得できた。このとき、EXE\_OR\_PID(コマンドないしはプロセスID(pid))を指定しなければ、システム全体のイベントの測定を行う(グローバルモード)。測定したいプロセスが

#### 複数にわたっている場合, 非常に便利である. 2.2 プロファイリングデータの測定と分析

ここでは例として、Linux Kernel 2.4.20 をビルドしたときのカーネルのキャッシュミスを測定してみよう。実験に利用したノート PC のスペックは、次のとおりである。

CPU: Pentium4

メモリ: 1024M バイト, DDR 266MHz

カーネルのビルドを行っている最中に hardmeter の ebs で各種イベントを測定した.

```
$ ./ebs -k -t l1_cache_miss -c 50000
```

-o pebs

これで、pebsというファイルにカーネルモードの1次キャッシュミス(l1\_cache\_miss)が出力される.

#### 〔図 5〕トップ 10 リスト

```
$ awk '{print $2}' pebs |sort|uniq ~c|sort -nr|head
3776 c0142bba
2514 c0130d68
750 c012d3a6
324 c0245012
297 c010915d
295 c012e483
268 c0138af4
260 c01642a3
251 c0244fcc
191 c0141fa0
```

#### ● 分析方法

**図4**のような生データが取得されたとしよう。カーネルのどの部分でキャッシュミスが多発しているだろうか?

```
$ awk '{print $2}' pebs |sort|uniq -c|
```

sort -nr

2桁目が論理アドレスなので、それでソートして件数を数えると、トップ10リストを容易に作成できる(**図5**).

論理アドレスとルーチン名のつきあわせは、eip2rというスクリプトを hardmeter に同梱しているので、それを利用する( $\mathbf{26}$ ).

この例では、invalidate\_bdev というルーチンの c0142bba というアドレスで1次キャッシュミスが 3776 回発生しているということがわかる.この c0142bba というアドレスでどのよう



#### 〔図6〕論理アドレスとルーチン名のつきあわせ

```
$ awk '{print $2}' pebs | ../doc/eip2r -s ../../linux-2.4.18-18.8.0-hm030603/System.map|sort|uniq -c|sort -nr|head
3776 c0142bba invalidate_bdev
2514 c0130d68 file_read_actor
750 c012d3a6 __constant_memcpy
324 c0245012 unix_poll
297 c010915d ret_from_sys_call
295 c012e483 find_vma
268 c0138af4 rmqueue
260 c01642a3 proc_pid_stat
251 c0244fcc unix_poll
191 c0141fa0 fget
```

89 DE PER BERTE (SE LES EL PER BERTE SE LES EL PRESENTANTES DE PRESENTANT DE PER BERTE BERTE BERTE BERTE BERTE

#### 〔図7〕 当該アドレス付近の逆アセンブル結果

```
for (i = nr_buffers_type[nlist]; i > 0; bh = bh_next, i--) {
                8b 34 ad 90 f7 39 c0
                                               0xc039f790(,%ebp,4),%esi
c0142b95:
                                        mov
c0142b9c:
                85 f6
                                        test
                                               %esi.%esi
c0142b9e.
                7e 27
                                        jle
                                               c0142bc7 <invalidate bdev+0x67>
c0142ba0:
                c7 44 24 04 00 e0 ff
                                        movl
                                               $0xffffe000,0x4(%esp,1)
c0142ba7:
c0142ba8:
               ba 00 e0 ff ff
                                               $0xffffe000,%edx
                                        mov
c0142bad:
               21 e2
                                        and
                                               %esp,%edx
c0142baf:
                89 54 24 04
                                        mov
                                               %edx,0x4(%esp,1)
                        bh next = bh->b next free;
                        /* Another device? */
                        if (bh->b_dev != dev)
                                        mov
c0142bb3:
                8b 44 24 08
                                               0x8(%esp,1),%eax
c0142bb7:
                8b 7b 20
                                        mov
                                               0x20(%ebx), %edi
c0142bba:
                66 39 43 Oc
                                               %ax, 0xc(%ebx)
                                        cmp
c0142bbe:
               74 30
                                        iе
                                               c0142bf0 <invalidate bdev+0x90>
c0142bc0:
                4e
                                        dec
c0142bc1:
                85 f6
                                        test
                                               %esi,%esi
c0142bc3:
                89 fb
                                               %edi,%ebx
                                        mov
                7f ec
c0142bc5.
                                        ja
                                               c0142bb3 <invalidate bdev+0x53>
c0142bc7:
                45
                                        inc
                                               %ebp
c0142bc8:
                83 fd 02
                                        cmp
                                               $0x2,%ebp
c0142bcb:
                7e bd
                                        ile
                                               c0142b8a <invalidate bdev+0x2a>
```

#### 〔図 8〕c0142bba での各レジスタ値を表示

```
$ grep c0142bba pebs | head
00000206 c0142bba 00000b00 ef11ed00 00000b00 f63c8000 0000a9e1 ef11ed80 00000000 f63c9e74
00000202 c0142bba 00000b00 ed775100 00000b00 f63c8000 00009657 ed775180 00000000 f63c9e74
00000202 c0142bba 00000b00 ebef9200 00000b00 f63c8000 000082ce ebef9280 00000000 f63c9e74
00000202 c0142bba 00000b00 eac00780 00000b00 f63c8000 00006f52 eac00800 00000000 f63c9e74
00000206 c0142bba 00000b00 e8ca6780 00000b00 f63c8000 00005bc9 e8ca6800 00000000 f63c9e74
00000202 c0142bba 00000b00 e73b2d80 00000b00 f63c8000 0000483b e73b2e00 00000000 f63c9e74
00000206 c0142bba 00000b00 e6238980 00000b00 f63c8000 000034be e6238a00 00000000 f63c9e74
00000202 c0142bba 00000b00 e4108b80 00000b00 f63c8000 00002134 e4108c00 00000000 f63c9e74
00000206 c0142bba 00000b00 e2842700 00000b00 f63c8000 00000da9 e2842780 00000000 f63c9e74
00000206 c0142bba 00000b00 eedf6100 00000b00 f63c8000 0000a77d eedf6180 00000000 f63c9e80
#eflags liner ip
                             ebx
                                               edx
                                                        esi
                                                                 edi
                                                                          ebp
                    eax
                                      ecx
                                                                                    esp
```

なことが行われているかは、オブジェクトを逆アセンブルすればよい.

\$ objdump -S vmlinux

当該アドレス付近の逆アセンブル結果を**図7**に示す. そこで, c0142bbaでの各レジスタ値を表示する(**図8**). 左から4桁目が ebx の値なので, アドレス ef11ed00 ... でキャッシュミスが発生していることなどを容易に発見できる.

#### 2.3 設計と実装

hardmeter の実装について解説する. ツールは次のコンポー

ネントからなる.

- ① メモリプロファイリング用ドライバ (Linux カーネルへの パッチなど)
- ② ユーティリティ(ebs)
- ③ ユーザープログラム用 API (Application Programming Interface)

性能モニタリング機能は、Linuxではデフォルトでは利用できないので、それを利用可能にするパッチが必要となる(表2).

# ]8076009

# メモリプロファイリングツールを開発する

宝践編

#### 〔表 2〕 性能モニタリング機能 用のパッチ例

| 名 前                                                                  | 開発者名                     | URL                                         |  |
|----------------------------------------------------------------------|--------------------------|---------------------------------------------|--|
| perfctr Mikael Pettersson http://www.csd.uu.se/mikpe/linux/~perfctr/ |                          |                                             |  |
| brink_abyss Brinkley Sprunt http://www.eg.bucknell.edu/~bsprunt/     |                          | http://www.eg.bucknell.edu/~bsprunt/        |  |
| Rabbit                                                               | Don Heller               | http://www.scl.ameslab.gov/Projects/Rabbit/ |  |
| PAPI                                                                 | Philip J. Mucchi, et. al | http://icl.cs.utk.edu/projects/papi/        |  |

#### 〔表 4〕 perfctr の Linux カーネ ルパッチとその追加機 能

| ファイル名                        | おもな追加機能                                                  |
|------------------------------|----------------------------------------------------------|
| arch/i386/kernel/i8259.c     | 割り込みベクタ (perfctr_interrupt)の設定                           |
| arch/i386/kernel/irq.c       | apic_lvtpc_irqsの設定                                       |
| arch/i386/kernel/process.c   | exit_thread()/copy_thread()/switch_to()プロセス(スレッド)スイッチの処理 |
| fs/proc/base.c               | proc ファイルシステムへの追加                                        |
| include/asm-i386/hw_irq.h    | LOCAL_PERFCTR_VECTOR の定義                                 |
| include/asm-i386/processor.h | vperfctr構造体の定義と thread_struct への追加                       |
| kernel/timer.c               | update_one_process()~perfctr_sample_thread()の追加          |

#### 〔表 5〕perfctrへの追加機能パッチ

| ファイル名                      | ルーチン名                                                                                                                                                                                                                                        | 機能                                                                                                                                              |
|----------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------|
| global.c                   | release_hardware gperfctr_init                                                                                                                                                                                                               | perfctr_cpu_state_clean()を追加<br>perfctr_cpu_state_init()を追加                                                                                     |
| virtual.c                  | get_empty_vperfctr vperfctr_ihandler_signal vperfctr_ihandler_ibuffer sys_vperfctr_control vperfctr_read                                                                                                                                     | perfctr_cpu_state_init()を追加<br>vperfctr_ihandler()から名称変更<br>新規<br>perfctr_cpu_set_ihandler()の設定<br>新規                                           |
| x86.c                      | generic_setup_ibuffer generic_store_to_ibuffer generic_read_ibuffer p4_pebs_setup_ibuffer p4_pebs_read_ibuffer free_ibuffer set_ibuffer perfctr_cpu_state_init perfctr_cpu_state_clean perfctr_cpu_store_to_ibuffer perfctr cpu read ibuffer | p4_ds_buffer 構造体の定義 perfctr_ibuffer 構造体の定義 perfctr_ibuffer_generic 構造体の定義 perfctr_ibuffer_p4_pebs 構造体の定義 新規 |
| include/asm-i386/perfctr.h | struct                                                                                                                                                                                                                                       | perfctr_cpu_stateの拡張<br>perfctr_p4_pebs_record 構造体の定義                                                                                           |
| include/linux/perfctr.h    |                                                                                                                                                                                                                                              | PERFCTR_FEATURE_PEBSの定義                                                                                                                         |

#### ● メモリプロファイリング用ドライバの実装

メモリプロファイリング用ドライバを、perfctr(表3)をベースに、PEBS対応の拡張を行って作成した(ソースコードはhttp://sourceforge.jp/projects/hardmeter/を参照のこと).

perfctr は、標準の Linux カーネルに対して**表 4** のような拡張を行っている.

筆者らは表5のような機能追加を行った.

#### ユーティリティの実装

ユーザーが簡単にメモリプロファイリングを行えるようなツール(ebs コマンド)を開発した. 表 6 に, ebs のおもなファイルとその機能を示す

#### 〔表 3〕 perfctr のおもなファイルとその機能

| ファイル名          | 機能                     |  |
|----------------|------------------------|--|
| global.c       | グローバルモードのドライバ          |  |
| init.c         | 初期化ルーチン                |  |
| virtual.c      | プロセスごとのパフォーマンスカウンタ     |  |
| virtual_stub.c | モジュール用スタブルーチン          |  |
| x86.c          | x86 用パフォーマンスモニタリングカウンタ |  |
| x86_setup.c    | x86用セットアップ             |  |

#### 〔表 6〕ebs のおもなファイルとその機能

| ファイル名         | 機能                              |
|---------------|---------------------------------|
| ebs.c         | メインルーチン                         |
| hardmeter.c   | /proc/pid/perfctr ドライバ          |
| hardmeter.h   | include file                    |
| p4_template.c | Pentium4の定義ファイル                 |
| rc.c          | resource file (.hardmeterrc)の処理 |
| self.c        | 高レベル API の実装                    |



#### [表 7] 高レベル API と機能

| API                                   | 機能         |  |
|---------------------------------------|------------|--|
| int hardmeter_start(const char *name) | プロファイリング開始 |  |
| int hardmeter_stop(void)              | プロファイリング停止 |  |

#### 「表8〕低レベルAPIと機能

| API                                                                                                                           | 機能                            |
|-------------------------------------------------------------------------------------------------------------------------------|-------------------------------|
| int hardmeter_init(const char **err)                                                                                          | 初期化                           |
| <pre>const hardmeter_template_t *hardmeter_get_templates(const char**err)</pre>                                               | テンプレート一覧の取得                   |
| <pre>const hardmeter_template_t *hardmeter_search_template(const char*name,</pre>                                             | テンプレートの検索                     |
| hardmeter_t *hardmeter_open(const hardmeter_option_t *opt, constchar **err)                                                   | /proc/PID/perfctrのオープン        |
| hardmeter_t *hardmeter_attach_process(const hardmeter_option_t*opt,<br>pid_t pid, const char **err)                           | pidにアタッチしてプロファイリング<br>開始      |
| hardmeter_t *hardmeter_start_process(const hardmeter_option_t*opt,<br>const char *file, char *const argv[], const char **err) | プロセスを fork() してプロファイリ<br>ング開始 |
| <pre>int hardmeter_dump(hardmeter_t *h, const char *filename, int non_blocking,</pre>                                         | PEBS レコードの出力                  |
| int hardmeter_terminate(hardmeter_t *h, const char **err)                                                                     | プロファイリング停止                    |
| <pre>int hardmeter_close(hardmeter_t *h, const char **err)</pre>                                                              | /proc/PID/perfctrのクローズ        |

#### 〔図 9〕\$HOME/.hardmeterrc の記述例

```
# sample events in user-mode when non-zero. default 0.
resource name.user
                      1
# sample events in kernel-mode when non-zero, default 0.
resource name.kernel 0
# specify event name.
resource name.event
                      11_cache miss
# output file
    %Y - year (1970...)
   %у -
         year (00..99)
   %m - month (01..12)
   %d -
          day of month (01..31)
   %H - hour (00..23)
    용M
          minute (00..59)
   %S - second (00..60)
   %P - process id
resource_name.dumpfile /tmp/hardmeter.%y%m%d-%H%M%S.%P
# max sampling count. default 2000, max 524270 for pebs.
resource name.count
                      200
# sampling interval. default 10000.
resource_name.interval 10000
```

#### • API

ユーザーアプリケーションから簡単に呼べるような高レベル API と、より詳細な機能を提供する低レベル API の2種類を実装した(表7、表8). 高レベル API では、サンプリングの定義などをユーザーデフォルトディレクトリのリソースファイル(\$HOME/.hardmeterrc)に定義しておき、アプリケーションプログラムは hardmeter\_start(''resource\_name'')とhardmeter\_stop()でプロファイリングの開始、停止を行う.

リソースファイルの定義例: リソースファイルは,

リソース名パラメータ名 パラメータの値 という書式で記述する。リソース名はスペースと'.'以外の任意 の文字を使える。resource\_name というリソース名でプロ ファイリングを行う場合は、\$HOME/.hardmeterrcを**図9**の ように記述する。

プロファイリングの定義はリソースファイル(\$HOME/

.hardmeterrc) にあるので、プログラムを変更しないでリソースファイルを変更するだけで簡単にプロファイリングができる.

低レベル API の場合、より細かい制御が可能になっている. hardmeter の元となった perfctr では、測定するイベントごとに「どのパフォーマンスモニタリングカウンタを使用するのか、また、それぞれのカウンタの各ビットにどのような値を設定するのか」を明示的に指定する。これらの情報を指定するには Intel のマニュアルリと首っぴきにどこにどのような値を入れる必要があるかを調べる必要がある.

hardmeterではユーザーの便を図って、これらのイベントをテンプレートとしてまとめて、テンプレートの名前を指定するだけで必要な情報を得られるようにした。hardmeterを利用する場合は、使用するテンプレートと若干のパラメータを指定するだけでイベントの測定ができるようにしてある。テンプレートの構造は、次のようになっている。

name にテンプレートの名前,description にその説明が入る。control,eventmask にはテンプレートの実際の設定が入っている。is\_pebs には,そのテンプレートが Precise EBS なのか,Non-preciese EBS なのかの区別が入っている。ユーザープログラム側では,これらの値の参照のみを行う。name のみが定義されていて他のメンバが NULL のエントリもあるが,これは ebs コマンドが画面にイベント一覧を出力するときのコメントとして扱われる。

テンプレートの一覧を取得するときは、hardmeter\_get\_templates()を利用する。現在動いているマシンの CPU の種類に対応したテンプレートを戻すようになっている。現在の実装では Pentium4 に対応したテンプレートのみを用意してあるが、将来は拡張する予定である(図 10).

テンプレートの名前でテンプレートを検索するときは, hardmeter search template()が利用できる(**図11**).

# メモリプロファイリングツールを開発する

- 実践編

#### おわりに

18000809

2回にわけて、メモリプロファイリングツールについて解説した。前編ではIA-32におけるハードウェアモニタリング機能について解説し、後編では、それを利用して実装したメモリプロファイリングツール(hardmeter)について解説した。

メモリプロファイリングツールを利用すると、簡単にアプリケーションおよびカーネルのメモリボトルネック(キャッシュミスなど)を発見できる。とくに PEBS によって精密にキャッシュミスなどのイベントが発生した時点での各レジスタ値などが取得できるので、より詳細な分析が可能となった。

今後の課題は、発見されたキャッシュミスなどをどうやって減少させるかというヒントを提示することなどが考えられる. 現時点ではキャッシュミス多発地点は発見できても、どうやって、それを解決するかはプログラマまかせになっている。そこで、何らかのヒントを提示できるようにしたいと考えている.

今回開発したツールは、Webページ(http://sourceforge.jp/projects/hardmeter/)で公開しているので、読者諸氏の利用を待つ。メーリングリスト、掲示板などもあるので、ご意見、ご要望などをぜひ聞かせてほしい。このツールを、読者諸氏のアプリケーションの性能向上に役立てていただければ幸いである。

\*

謝辞:メモリプロファイリングツールは平成 14 年度未踏ソフトウェア創造事業(プロジェクトマネージャー喜連川優東京大学教授)「OLTP性能向上を目的としたメモリプロファイリング

#### 〔図 10〕Pentium4 に対応したテンプレート

```
struct hardmeter_template_t {
    const char *name;
    const char *description;
    const struct vperfctr_control *control;
    const hardmeter_event_mask_t *eventmask;
    int is_pebs;
};
typedef struct hardmeter_template_t hardmeter_template_t;
```

ツール[として支援を受け、開発を行った。

#### 参考文献

- Intel, The IA-32 Intel Architecture Software Developer's Manual Volume3: System Programming Guide, Order Number 245472, 2002
- Dean, J. et. al, "ProfileMe: Hardware Support for Instruction-Level Profiling on Out-Of-Order Processors", Proceedings of Micro-30,December, 1997
- Sprunt, B., "Pentium4 Performance Monitoring Features", IEEE Micro, July-August, 2002
- 4) 吉岡弘隆, 平成14年度未踏ソフトウェア創造事業,「OLTP性能向上を 目的としたメモリプロファイリングツール成果報告書」
- 5) 吉岡弘隆、「Intel系(IA-32)プロセッサのバフォーマンスモニタリングファシリティを利用したメモリプロファイリングツール」、『第 44 回プログラミングシンポジウム』、 箱根、2003 年
- 6) 吉岡弘隆、「OLTP性能向上を目的としたメモリプロファイリングツール」、『第14回データ工学ワークショップ』、電子情報通信学会、2003年
- 7) よしおかひろたか、「未踏ソフトウエア奮闘記」(前編/後編)、『日経ソフトウエア』、2003 年 7/8 月号

よしおか・ひろたか hyoshiok@miraclelinux.com ミラクルリナックス(株)

#### (図 11) hardmeter\_search\_template()の利用

```
int foo(....)
{
    hardmeter_option_t opt;
    const char *err;

    opt.template = hardmeter_search_template("l1_cache_miss", &err);
    opt.user = 1;
    opt.kernel = 0;
    opt.interval = 10000;
    opt.count = 2000;
    /* ... start sampling ... */
    hardmeter_handle = hardmeter_start_process(&opt, argv[0], argv, &err);
    /* ... */
}
```

Interface Oct. 2003 159

# オープンソースのITRON仕様OS 「TOPPINSで学ぶ RTOS技術

# 第2回 シミュレータ環境を使って実際に動かしてみよう!

今井和彦

連載1回目をご覧になった方は「へぇ、TOPPERSって、フリーソフトウェアなんだ.試しにやってみようかな」と思われたことでしょう。リアルタイムOSに限らず、ソフトウェアに対する理解の早道は、本を読むだけでなく実際に動かしてみることです。幸い、TOPPERS/JSPカーネルにはシミュレーション環境が含まれており、実機がなくてもひととおりのことが試せます。今回は、これを用いて実際にプログラムを書いて、動かしてみましょう。

〔図1〕リアルタイム OS は難しい? -

サービスコール1 サービスコール2 サービスコール3

(a) サービスコール

単体での見方



(a) サービスコール単体だけ見ても OS 全体は理解しにくいが、(b) 使われるシチュエーションとセットでその背後にある考えも含めて考えると理解しやすい

初心者がリアルタイム OS を学ぶ際のポイントはいくつかありますが、まず個々のサービスコール  $^{\pm 1}$  単体ではなく、その背後にある考え方を意識して、それが使われる状況とセットで理解することが大切です(図1).同じサービスコールでも使う状況によっては意味が異なってくるのです(ちょうど、外国語を学ぶ際のイデオムや文脈に似ている)。それを知らないと  $\mu$  ITRON の仕様書や参考書を読んでも「このサービスコールはどうやって使うのだろう?」、「どうして私が使いたい機能は用意されていないの?」といった疑問が残り、これではリアルタイム OS を導入しても開発効率アップどころではありません。

使用するツールとインストールの手順

TOPPERS/JSP カーネルのシミュレーション環境について述べることにします. JSP カーネルには Windows 用のシミュレーション環境が用意されており、実機がなくてもデバイスドライバを含めたシミュレーションもできるよう、自分でデバイスをモデリングできるしくみが提供されています(図 2).

本文中で扱う例題は、本誌発売時には CQ 出版社の本誌 Web

#### 〔図 2〕TOPPERS/JSP カーネルの実機動作とシミュレーション環境の対応関係 -

アプリケーション

| タスク | タスク | デバイス | I/Oアクセス | I/Oアクセス | I/Oアクセス | SIL | SIL

(a) 実機



(b) Windows用シミュレーション環境

注1: 一般には、OSの API はシステムコールと呼ばれているが、  $\mu$  ITRON40 仕様では OSの API とソフトウェア部品の API を合わせてサービスコールと総称している。本稿でもこれにしたがう。



#### 〔図3〕シミュレーション環境の実行画面



サイトからダウンロードできるようにする予定です<sup>注2</sup>ので、ぜ ひご自分のパソコン上で動かして体験してください。

開発は以下の三つのツールを用いて行います。

- TOPPERS/JSP カーネル Windows 用シミュレータ (Windows 9x はサポート外)
- Visual C++ 6.0 または Visual C++ .NET
- Visual Basic 6.0
- インストール

Visual C++ と Visual Basic はすでにインストールされているとします.

● JSP カーネルのコンフィギュレータとデバイスマネージャの ビルド

Webサイトからダウンロードした 2003-10toppers.1zh を解凍し、jsp¥WINDOWS¥configure.vbs スクリプトを実行します.Windows Scription Host 実行環境がインストールされていない場合は、jsp¥doc¥windows.txt を参照してください.いくつかの質問に答えると JSP カーネルのコンフィギュレータとデバイスマネージャがビルドされ、Visual C++ を起動した後にサンプルのプロジェクトを開きます.このサンプルプログラムは JSP カーネルの簡単なデモプログラムになっています(図 3). 興味のある方は jsp¥WINDOWS¥sample1.cのコメント部分に使い方の説明があるのでご覧ください.

デバイスシミュレーション環境で提供されている API 一覧を表 1,表 2 に示します.

表1のデバイスドライバ設計ガイドラインとは、その名のとおりデバイスドライバを設計する際の指針を示したもので、トロン協会により策定されています。このガイドラインでは、デバイスドライバの移植性を向上するため、デバイスへのリード

注2: http//www.cqpub.co.jp/interface/

#### 〔表 1〕アプリケーションから利用できるデバイスエミュレーション 関連の API

デバイスドライバ設計ガイドライン互換インターフェース

VB sil\_reb\_mem(VP mem)

VH sil\_reh\_mem(VP mem)
VW sil\_rew\_mem(VP mem)

void sil rek mem(VP mem, VP data, UINT len)

指定されたサイズで、指定されたアドレスにマッピングされているデバイスからメモリ読み出しを行う、後述のDeviceReadのラッパ

void sil\_wrb\_mem(VP mem, VB data)

void sil\_wrh\_mem(VP mem, VH data)

void sil wrw mem (VP mem, VW data)

void sil wrk mem(VP mem, VP data, UINT len)

指定されたサイズで、指定されたアドレスにマッピングされているデバイスへメモリ書き込みを行う。後述のDeviceWriteのラッパ

#### 独自インターフェース

void InitializeComSupportModule(void)

デバイスエミュレーション関連の初期化を行う.

基本的にカーネルが起動時に初期化を行うため, ユーザーが呼 ぶ必要はない

void FinalizeComSupportModule(void)

デバイスエミュレーション関連の終了処理を行う.

カーネル脱出時に終了処理を行っているので、能動的に呼ぶ必要はない

int DeviceRead(unsigned long address,

unsigned long size, void \* storage)

デバイスからの読み込み

address:デバイスを識別するためのアドレス値など

(実メモリ空間とは独立)

size :読み込む長さ

storage:格納先へのポインタ

返り値 : 読み出されたデータのバイト数または-1(失敗) address にマッピングされたデバイスから size バイトのデータ を読み込み,storage に格納する.マッピングされたデバイスがない場合,関数は-1を返す.発行時に CPU はロック状態となる

int DeviceWrite(unsigned long address,

unsigned long size, void \* storage) デバイスへの書き込み

address:デバイスを識別するためのアドレス値など (実メモリ空間とは独立)

size :書き込む長さ

storage:出力データを格納する領域へのポインタ

返り値 : 書き込まれたデータのバイト数または-1(失敗) address にマッピングされたデバイスへ storage に格納された size バイトのデータを書き込む、storage に格納する. マッピングされたデバイスがない場合、関数は-1を返す.発行時に CPU はロック状態となる

/ライトにおけるエンディアンの違いを隠蔽する目的の API(システムインターフェースレイヤ)が規定されています。このインターフェースは Windows 用シミュレーション環境と各種マイコン用 JSP カーネルの両方で用意されているので、このインターフェースを介してデバイスにアクセスするようデバイスドライバを作っておけば、シミュレーション環境用にソースコードを書き換える必要がありません (Windows シミュレーション環境と実機で共通のソースコードを利用できる).

割り込み番号の割り当てを**表3**に示します。割り込み番号が 大きいほど優先度が高く設定されており、タイマとシリアルは デフォルトで使用されています。割り込み要因の最大数は任意

#### 〔表 2〕デバイスモデル (Visual Basic 側) から利用できる API

(TOPPERS/JSP on Windows Device Component で提供される)

| (TOP   | OPPERS/JSP on Windows Device Component で提供される)                                                                                               |  |  |  |  |  |
|--------|----------------------------------------------------------------------------------------------------------------------------------------------|--|--|--|--|--|
| オブジェクト | DeviceControl                                                                                                                                |  |  |  |  |  |
| メソッド   | Public Sub Connect()<br>デバイスマネージャとの通信を確立させる.<br>確立前にConnect以外のメソッドを実行すると失敗する.                                                                |  |  |  |  |  |
|        | 失敗すると E_FAIL が返る Public Sub Close() デバイスマネージャとの通信を終了する.                                                                                      |  |  |  |  |  |
|        | 失敗すると E_FAIL が返る Public Sub RaiseInterrupt( ByVal inhno as long) カーネルプロセスにハンドラ番号 inhno の割り込みを                                                |  |  |  |  |  |
|        | 発生させる.<br>失敗すると E_FAIL が返る. 0以下の値は設定できない                                                                                                     |  |  |  |  |  |
|        | Public Sub Map(ByVal address as long, ByVal size as long) このデバイスをアドレス address から size バイトの サイズでマッピングする。 以後、対象領域にアクセスがあると、イベントが発生する           |  |  |  |  |  |
|        | Public Sub Unmap(ByVal address as long)<br>アドレス address を含むようなマップ済み領域のマッピングを解除する.<br>以後、対象領域にアクセスがあってもイベントは発生しない                             |  |  |  |  |  |
| プロパティ  | Public Valid as BOOL [R]<br>このデバイスが有効であるときにはTrueとなる                                                                                          |  |  |  |  |  |
|        | Public IsKernelStarted as BOOL [R]<br>カーネルが起動していると True となる                                                                                  |  |  |  |  |  |
|        | Public Offset as long [RW]<br>送受信データバッファのオフセット位置を指定/取得する。<br>単位はバイト単位                                                                        |  |  |  |  |  |
|        | Public AccessSize as short [RW]<br>アクセス単位を指定/取得する.<br>数値は1, 2, 4のいずれかである                                                                     |  |  |  |  |  |
|        | Public Value as long [RW] プロパティ Offset の位置からプロパティ AccessSize バイトのリトルエンディアンにしたがい数値表現したも のを取得/設定する. アクセスが行われると Offset の値を AccessSize だけ 増加させる. |  |  |  |  |  |
|        | イベント OnRead 時における読み込みは無効となる.<br>イベント OnWrite 時における書き込みは無効となる                                                                                 |  |  |  |  |  |
| イベント   | Private Sub OnRead(ByVal address as long,<br>ByVal sz as long)<br>カーネルから address 番地に対する szバイトの読み込<br>みがあったことを通知する、デバイスはその返答となる               |  |  |  |  |  |
|        | 値を格納しなければならない。<br>イベント発生時には Offset は常に 0 となる。<br>OnRead イベント発生時には Value に対する読み込みは<br>できない                                                    |  |  |  |  |  |
|        | Private Sub OnWrite(ByVal address as long,<br>ByVal sz as long)<br>カーネルから address 番地に対する szバイトの書き込                                           |  |  |  |  |  |
|        | みがあったことを通知する.デバイスはその値から適切な処理を行わなければならない.<br>イベント発生時にはOffset は常にoとなる.<br>OnWrite イベント発生時には Value に対する書き込みはできない                                |  |  |  |  |  |
|        | Private Sub OnKernelStart() カーネルが起動したことを通知する                                                                                                 |  |  |  |  |  |
|        | Private Sub OnKernelExit()<br>カーネルが終了したことを通知する                                                                                               |  |  |  |  |  |

注3: もちろん, ハードウェアも含めたシステム全体がそろって初めて実現可能 な性質

#### 〔表3〕シミュレーション環境の割り込み番号の割り当て

| 優先度      | 割り込み番号 | デバイス |
|----------|--------|------|
| 低        | 1      | 空き   |
| † †      | 2      | 至さ   |
|          | 3      | シリアル |
|          | 4      | タイマ  |
|          | 5      |      |
| <b> </b> | 6      | 空き   |
| 高        | 7      |      |

#### 〔リスト1〕タスク起動による情報通知

に設定できます(デフォルトでは7).

ここまででインストールは完了したと思います。本記事で扱った例題は,2003-10toppers.1zh内のex1~ex6ディレクトリに収録しています。たとえば,**リスト1**の「タスク起動による情報通知」の例題プログラムを実行するには,Visual Basic からプロジェクトファイル ex1\$device\$Project1.vbpを開き,実行します。次に Visual C++ からプロジェクトワークスペース ex1\$vc\_project\$toppers.dsw を開き,ビルドを行って(アプリケーションプログラムを)実行します。なお,本稿の例題は JSP カーネル Release1.4 の開発中のバージョンで動作確認を行いました。正式リリース版では一部変更がある可能性があるので,ご了承ください.

ここで、JSPカーネルからはいったん離れ、リアルタイムOSの基本原理的な話題に戻ります。

#### リアルタイム OS を使う意義は?

図4に組み込みシステム用リアルタイム OS の役割を示します。第1の役割は、システムの応答性を向上させることです。組み込みシステムでは、外界からの処理要求に対して制限時間内に応答する性質が重要視されます<sup>注3</sup>。この性質をリアルタイム性といいます。これはただ単に「数値計算の結果が正しい」という計算機の使い方とは次元の異なる話です。たとえば、自動車のブレーキ制御では車輪がロックしていないかどうかを判断しながら制御を行っているわけですが、結果が出力されるまで時間がかかりすぎて車体が障害物にぶつかってしまっては意



#### 〔図 4〕リアルタイム OS の役割



#### 〔図5〕リアルタイムシステムのモデル



味がありません。システムのリアルタイム性がいかに重要かわ かるでしょう。

システムの規模が小さくて OS を使わなかった頃は、システムの応答性にかかわる部分を毎回、アプリケーションの一部として作り込んでいました。大雑把にいえば、この毎回作る部分を括りだして共通に使えるものとしてまとめたのがリアルタイム OS です.

リアルタイム OS の第2の役割は、設計の容易性、ソースコードの保守性、再利用性を向上させることです。これはリアルタイム OS がある場合に限った話ではないのですが、リアルタイム OS を使えば、システムを機能ごとに分割して保守性・再利用性に優れた設計をしやすくなります。これは製品のモデルチェンジを繰り返していく際に有利に働きます。

第3の役割は、前述の再利用性の利点をもう1歩押し進めた、ソフトウェア部品を動かす共通の土台としてのプラットホームとしての役割です。最近は組み込みシステムの大規模化・複雑化にともない、ソフトウェアの開発工数も急激に増え、システムのすべてを自社で開発することが困難になってきました。そのため、自社で蓄積したソフトウェア資産はもちろん、他社が作ったソフトウェア部品も取り入れることにより、開発期間を短縮することが多くなってきました。注4. そうすると、リアルタイム OS 単体の機能の優劣ではなく、その上で動くソフトウェア部品がいかに豊富にそろっているかが重要になってきました。逆にいうと、ソフトウェア部品を提供するベンダはなるべく

#### 〔図 6〕処理を複数個もったリアルタイムシステムのモデル・



広く市場で用いられている OS 用にソフトウェア部品を用意するほうがビジネス上有利になり、一度普及した OS はますます普及する傾向があります。

再考: そもそもリアルタイムシステムって何?

**図5**にリアルタイムシステムの典型的なモデルを示します。システムは外部からの処理要求を受けて必要な処理を行い、結果を出力します。このとき、システムごとに決まる制限時間内に結果を出さなければなりません<sup>注5</sup>。この締切のことをデッドラインといいます。

実際のシステムは複数の処理内容をもったものがほとんどですから、各処理の優先度の違いを考慮すると図6のようになります。この図だけ見ると、「リアルタイムOSがなくても、多重割り込みがあればリアルタイムシステムができるのでは?」と思われるかもしれません。各処理の内容が完全に独立であればそれでも良いのですが、システムが複雑になり各処理の内容が互いに絡み合ってくると、多重割り込みだけではさばき切れなくなってきます。具体的には図7の要因が挙げられます。図7の(a)  $\sim$  (c) の内容は以下のとおりです。

注4:とくにシステムにネットワーク接続機能をもたせるため、TCP/IPプロトコルスタックなどのソフトウェア部品が利用される例が増えてきた。 注5:すべての処理に制限時間があるわけではないが、ここではリアルタイムシステムの特徴を強調する意味で制限時間付きの処理を扱う。

# 774

#### サービスコールの返り値について

OSのサービスコールはエラー値を返すことがあります. μITRON4.0 仕様では、サービスコールが正常に終了した場合は E\_OK、異常終了時にはそれぞれのエラー要因ごとに定められた値を返すよう規定されています。本文中のサンプルプログラムでは、本質的な部分が見えにくくなるのでサービスコールの返り値をチェックしていませんが、実際のシステムに適用する際はきちんとチェックしましょう(リストA).

また、ポーリング用のサービスコールや待ちの強制解除な ど、返り値が本質的な意味をもつ場合もあります.

#### 〔リストA〕サービスコールの返り値のチェック

| ER err;                                | 正常処理;                    |
|----------------------------------------|--------------------------|
| err=service_call();<br>if(err==E_OK) { | }else{<br>異常処理;<br> <br> |

(a) 優先度の異なる処理が同じ割り込みハンドラ内に混在する 場合

一般に同じ割り込みをトリガにして行われる処理内容でも、本当に急いで処理しなければならない部分とそれほど急がない部分に分けられます。単純に一つの割り込みハンドラとして実装してしまうと、急がない部分の処理中に他の処理要求がブロックされてしまい、結果としてシステムの応答性が損なわれてしまいます。

#### (b) 排他制御

複数の割り込み(処理要求)が同じリソースを使う場合,最初の割り込みがそのリソースを使っている途中で,優先度の高い割り込みが入ったからといって単純に割り込みの優先度だけを見て処理を切り替えてしまうと処理の一貫性が保てなくなり、システムが破綻してしまいます。たとえば、図7(b)のように1台しかないプリンタを複数の処理要求で共有しているケースを

考えれば、容易に想像がつくでしょう。これを防ぐには優先度とは別の指標で処理の切り替えを行う必要があります。これを 制御の分野では「排他制御」と呼んでいます。

多重割り込みの中で排他制御を行うのは無理があるので、割り込みとは別の処理単位が必要になります。

#### (c) 処理の順序依存関係

組み込み制御に限った話ではありませんが、二つの処理が互いに独立ではなく、処理 A が終わらないと(必要なデータが揃わないなどの理由で)、処理 B が始められないということがよくあります。これを順序依存関係と呼び、割り込みだけではうまく表現できません。

#### タスクの導入

前節より、割り込みとは別の処理単位が必要なことがわかりました。  $\mu$ ITRON4.0 仕様ではその処理単位はタスクと呼んでいます  $\pm 6$ . タスクに求められる性質は以下のとおりです(図8).

- (1) 割り込みハンドラより優先度が低い
- (2) 優先度とは別の指標で処理を切り替えられ、待ち状態に入れる  $^{127}$
- (1) は**図7(a)** の割り込みハンドラの急がない部分の処理を受け持つことからくる要請です。タスクに処理を引き継いだ後は割り込みを受け付けることができます。タスク同士の処理の順番は優先度によって決まります(優先度ベーススケジューリング). UNIX のプロセスのように各処理に対して平等に CPU時間を振り分けるのとは趣が異なります。
- (2) は優先度以外の指標で処理を保留できるよう待ち状態を 導入し、排他制御や順序依存関係を OS で扱えるようにするも のです。

#### タスク状態

上記のような機能を実現するため、OSは状態遷移を用いてタ スクを管理しています。μITRON4.0 仕様のタスク状態を**図9** 

#### 〔図7〕割り込みだけでは対応できないケース



(a) 優先度の異なる処理が同じ割り込みハンドラ内に混在する場合

(b) 排他制御



(c) 処理の順序依存関係

注6: OSによってタスク, スレッド, プロセスと名称は異なる.



#### 〔図8〕タスクに求められる性質・



待ち発生 待ち解除 高 タスク1 実行 待ち 実行 処理のの優先度 低 タスク2 優先度が低くても実行される 時間 (b) 待ち状態に入れる

に示します  $^{\pm 8}$ . まず OS に登録されたタスクは DORMANT 状態 (休止状態) に入ります。 DORMANT 状態のタスクは起動されると READY 状態 (実行可能状態) に遷移します。実行可能なタスクのうち、もっとも優先度の高いタスクが RUNNING 状態 (実行状態) に選ばれ、実行されます。 RUNNING 状態と READY 状態の間の遷移は、優先度で決まります  $^{\pm 9}$ .

排他制御や順序依存関係を扱うため、READY 状態とは別に WAITING 状態 (待ち状態) を用意し、優先度以外の要因で実行できないタスクを管理します。WAITING 状態のタスクはそれぞれの待ち要因が解除されると READY 状態へ遷移します。優先度が高いタスクも待ち要因が解除されるまでは実行されません。この待ち要因にはいくつかの種類があることがポイントで、これにより排他制御や順序依存関係など、さまざまなことを扱うことができます。待ち要因は、以下の5種類に分類されます。

- ●資源待ち(セマフォ,メモリプール)
- ●イベント待ち(イベントフラグ)
- メッセージ待ち(メールボックス, データキュー)
- ●時間経過待ち
- ●起床待ち

#### 割り込みハンドラからタスクへの情報通知

リアルタイムシステムでは外部からの処理要求のうち、急がない部分を割り込みハンドラからタスクへ引き継ぐ操作が非常に重要です(**図10**)。実際に OS の機能をどのように当てはめていけばよいのでしょうか。  $\mu$ ITRON を例に見てみましょう。

μITRON4.0 仕様では割り込みハンドラからタスクへの情報 通知に適用できる機能として,



## **コラム** 2 VP\_INT型について

μITRON4.0 仕様では、タスクの拡張情報 (引き数) に使われている VP\_INT型は「データタイプが定まらないものへのポインタまたはプロセッサに自然なサイズの符号付き整数」と規定されています。これは誤解を恐れず意訳すると「ポインタ型と int型のどちらでも格納できるサイズをもったデータ型 <sup>注 A</sup>」となります。実際のコーディングではタスクに渡したい引き数が 1 個のときはそのまま渡し、複数個のときはメモリ上にひとかたまりに配置して、タスクにはその先頭アドレス (=ポインタ)を渡します。

この方法によって、**OS**のオーバヘッドを最小限にしつつ、引き数をたくさん渡したい場合にも対処しています. うまくできているものですね.

注 A:プロセッサやコンバイラによっては、ポインタ型と int 型のサイズが異なる場合がある.

注8: μITRON4.0 仕様ではこの他にもタスク状態が定義されているが、ここまで理解できればかなり複雑なことも表現できる。

注9:現在実行中のタスクより優先度の高いタスクが実行可能になった場合は、その時点で直ちに実行するタスクを切り替える。このスケジューリング方式を優先度ベーススケジューリングという。

#### 〔図10〕割り込みハンドラからタスクへの情報通知



◆タスク起床 ◆タスク起動 ◆セマフォ ◆イベントフラグ ◆データキュー

- ●タスク起動
- ●タスク起床
- ●セマフォ
- イベントフラグ
- データキュー

の5種類が用意されています。一般に下のものほど通知できる 情報量が多く、その代わりオーバヘッドが大きくなります。

#### ● タスク起動

タスクを DORMANT 状態から READY 状態へ遷移させて処理要求を通知します(図11, リスト1, p.162). タスクは毎回終了し、待ち状態を使わないのでタスクのスタックを開放でき複数のタスクでスタック領域を共有する(メモリを節約する)実装も可能です。また、コンテキストを保存する必要がないので、汎用レジスタの数が多い最近の RISC マイコンでとくに有利です。通知できる情報量はイベント通知のみです。スタンダードプロファイルでは、1回まで処理要求をキューイングできます(後述)。

#### タスク起床

タスクを起床待ちのWAITING状態からREADY状態へ遷移させて処理要求を通知します(図12, リスト2). よく誤解される方がいるのですが、タスクを起床したからといって、タスクの数が増えるわけではありません。同一のタスクがスリープしたり起床したりするだけです(WAITING状態で止まっていたタスクが動き出すだけ). 通知できる情報量はイベント通知

# 3

#### メールボックス機能の勘所

μITRON4.0 仕様のメールボックス機能は、データの先頭アドレスだけが送られ、データ本体はコピーされない仕様になっています(**図A**, **図B**). このことに注意しないと、簡単にデータ領域が破壊され、原因を見つけづらい不具合となります。ここでは初心者が陥りがちな落とし穴を2点、紹介します。

ダブルポインタの扱いは慎重に

メッセージの先頭アドレスを受け取るタスクは**リストB**の③のように書ければ、シンプルでわかりやすいのですが、サービスコール

## 〔図 A〕メールボックス機能



#### 〔図B〕メールのデータ構造



- ヘッダ部分だけがOS側で定義されている
- ユーザー領域はアプリケーション側で定義する (OS側ではユーザー領域を使用しないことを保証している)

ヘッダ領域のデータ型として T\_MSG 構造体が定義されている

の返り値は異常終了した際のエラー要因を通知するために使うので、それはできません。先頭アドレスを受け取る場所はリストBの ものように引き数へ移動させます。すると C 言語では関数の引き数は値渡しなので、そのままの型を引き数に与えるだけでは所望の動作になりません。たとえば、リスト C のように int 型のデータを受け取りたい場合は、int 型データを書き込む領域の先頭アドレス、すなわち int \*型のポインタ型を引き数として渡す必要があります。同様に T\_MSG \*型を受け取る場合の引き数はダブルポインタ型(T\_MSG \*\*型)になります。これはリアルタイム OS というより、C 言語の文法レベルの問題ですが、初心者はよく混乱するようです。

#### • メモリプール機能との連携

メールボックス機能がメッセージの先頭アドレスしか送らないということは、言い換えれば、受信タスクがメッセージのメモリ領域を使い終わるまで、送信タスクはその領域を破壊してはいけないということです。メッセージを連続して送信する場合にはとくに注意が必要です(図 $\mathbf{C}$ )。このあたりの制御をアプリケーション側で実装するのは結構大変ですが、 $\mu$ ITRON4.0 仕様にはメモリプール機能

#### 〔リストB〕メッセージ受信時の先頭アドレスの受け取り方

ER err;
T\_MSG\*p;
p=rcv\_mbx(MEX\_ID); ......a
err=rcv\_mbx(MEX\_ID, &p); .....b

#### (リスト C) C 言語の関数呼び出しにおける結果の受け取り方

int data;

data=get\_data(); ...... 戻り値として受け取る場合
get\_data(&data); ...... データを書き込む領域を引き数として与える
場合



のみです.スタンダードプロファイルでは,1回まで処理要求 をキューイングできます(後述).

#### • セマフォ

タスクを資源待ちのWAITING状態からREADY状態へ遷移させて処理要求を通知します(図13, リスト3). 通知できる情報量はイベント通知のみです. 処理要求の最大キューイング数はセマフォカウンタの最大値として任意に設定できます.

また、タスク側の処理〔**リスト3**中の proc\_something()〕内に待ち状態には入るような操作が含まれていても、受け側のタスクを複数用意することである程度システムの応答性を確保できます。

本来, セマフォはタスク間の排他制御のためのしくみですが, このような使い方もできます.

#### • イベントフラグ

タスクをイベント待ちの WAITING 状態から READY 状態へ 遷移させて,処理要求を通知します〔**図14**, **図15**, **リスト4** (**a**)〕,処理要求は最大1回キューイングできます<sup>注10</sup>. イベン

#### 〔図11〕タスク起動による情報通知



#### メリット

- タスクスタックを開放できる
- コンテキストを保存する必要がない

#### 備考

- 通知できるのはイベント発生のみ (それ以上の情報を通知するには共有メモリが必要)
- $\bullet$ スタンダードプロファイルでは1回まで処理要求をキューイングできる

トの有無だけでなく, ビットパターンを通知できるので, より 多くの情報量を通知できます[リスト4(b)].

また、この機能の大きな特徴として、複数のイベントを複合

注 10:フラグ生成時にフラグ属性として TA\_CLR を指定し、待ち解除と同時にイベントフラグの値をクリアする設定にした場合。

があるので、これを組み合わせると簡単に実現できます(**図 D, リ** スト D).

#### 〔図 C〕メールボックス機能で陥りやすいミス



タスク2が1通目のメッセージを処理する前に同じ領域にデータを上書きしてはいけない

#### [図D] メールボックス機能とメモリプール機能の連携 送信タスク 受信タスク



送信タスクではメッセージのデータサイズに見合ったメモリブロックを確保し、この領域に必要なデータを書き込んで送信します。受信タスクはメッセージを受信後、メッセージ内のデータを使い終わったら、メモリブロックを OS に返却します.

この手順でメッセージのメモリ領域が破壊される心配がなくなります.

#### 「リストD〕メモリプール機能との連携

```
/*MESSAGE はユーザーが定義するメッセージ―つ分のデータ型 */
typedef struct (
                /* ヘッダ領域(OS が管理) */
   T MSG header;
                 /* データ領域 */
   int data:
MESSAGE:
* 送信タスク
void sender_task(VP_INT exinf)
   VP p;
   get_mpf(MPF_ID, &p);
                            /* メモリブロック確保 */
   /*pが指し示す領域にデータ書き込み */
   ((MESSAGE*)p)->data=xxxxxx;
   snd_mbx(MBX_ID,p); /* メッセージ送信 */
* 受信タスク
void receiver_task(VP_INT exinf)
   MESSAGE*p;
   rcv mbx(MBX ID, (T MSG**)&p); /* メッセージ受信 */
                 /*p が指し示す領域のデータ使用 */
   proc_something(((MESSAGE*)p)->data);
   rel_mpf(MPF_ID, (VP)p);
                            /* メモリブロック返却 */
```

#### 〔図12〕タスク起床による情報通知



#### メリット

オーバヘッドが小さい

#### 備考

• 通知できるのはイベント発生のみ (それ以上の情報を通知するには共有メモリが必要)

#### 〔図 13〕セマフォによる情報通知



#### メリット

- 処理要求の最大キューイング数を調整できる
- 受け側のタスクを複数個用意できる

#### 備老

• 通知できるのはイベント発生のみ (それ以上の情報を通知するには共有メモリが必要)

#### (図 14) イベントフラグによる情報通知(基本形) -



#### メリット

- ビットパターンによって処理を選択できる
- 複数のイベントの複合通知ができる

#### 備考

- 通知する情報量が多い場合,共有メモリが必要
- 要求をキューイングできない

#### 「図 15〕複数イベントの通知・



イベントフラグのセットは単なる上書きではなく、OSはその時点のフラグの値と論理和を取ってから代入する

「複数のイベントに対して、ANDやORの 待ち条件を設定することができる →上書きしたら意味がない!

#### 〔リスト2〕タスク起床による情報通知

```
/*
 * 割り込みハンドラ
 */
void interrupt_handler(void)
{
   iwup_tsk(TASK_ID); /* タスクを起床(READY状態へ) */
}

/*
 * 起床されるタスク
 */
void task(VP_INT exinf)
{
   while(1) {
      slp_tsk(); /* 起床待ち(WAITING状態へ) */
      proc_something();
   }
}
```

#### 〔リスト3〕セマフォによる情報通知

```
/*
 * 割り込みハンドラ
 */
void interrupt_handler(void)
{
    isig_sem(SAMAPHORE_ID); /* 資源返却 */
}

/*
 * 資源待ちのタスク
 */
void task(VP_INT exinf)
{
    while(1) {
        wai_sem(SAMAPHORE_ID); /* 資源待ち(WAITING 状態へ) */
        proc_something();
    }
}
```

させて待ち条件を設定することができます。複合条件としては AND 条件(すべてのイベントが発生した)または OR 条件(いずれかのイベントが発生した)の2種類が設定できます[リスト4(c)].

#### データキュー

タスクをデータ受信待ちのWAITING状態からREADY状態へ遷移させて処理要求を通知します(図16, リスト5). 処理要求の最大キューイング数はデータキューのサイズとして任意に設定できます。1ワードデータを使えるので、より多くの情報を通知できます。必要であれば割り込みハンドラ内でpsnd\_dtq()を複数回実行して多くのデータを通知することも可能です。受け側のタスクを複数個用意できる点は、セマフォの場合と同じです<sup>注</sup>.

表4(p.170)に示すように、それぞれの方法には特徴やトレードオフがあります。とくにイベントフラグは、複数のイベントの複合通知が簡単に実現できる面白い特徴があります。適材適所に使い分けましょう。

注 11:受け側のタスクが複数でかつ,割り込みハンドラ内で psnd\_dtq()を複数回実行して2ワード以上送信する場合は,同一のタスクで連続してデータを受信できないので注意が必要.



#### 〔リスト4〕イベントフラグによる情報通知 -

(a) 基本形

#### 〔図16〕データキューによる情報通知



#### 特徵

- 1ワードデータを通知できる
- 要求をキューイングできる最大数はデータキューのサイズで決まる (スタンダードプロファイルでも2回以上キューイングできる)

#### 「リスト5〕データキューによる情報通知:

#### 起動要求のキューイング

ところで JSP カーネルが準拠している  $\mu$ ITRON4.0 仕様スタンダードプロファイルでは「タスクの起動要求や起床要求は 1 回以上キューイングできること」と規定されているのですが、これを読んだことのある方は、この機能がどうして必要なのか疑

(**b**) 空きビットにデータをのせる場合

```
/*
 * 割り込みハンドラ(イベント1を通知)
 */
void interrupt_handler1(void)
{
 iset_flg(FLAG_ID,0x1); /* イベント1を通知 */
}

/*
 * 割り込みハンドラ(イベント2を通知)
 */
void interrupt_handler2(void)
{
 iset_flg(FLAG_ID,0x2); /* イベント2を通知 */
}

/*
 * イベント待ちのタスク
 */
void task(VP_INT exinf)
{
 /* イベント発生時のフラグの値をコピーする領域 */
FLGPTN flgptn;
 while(1) {
 /* イベント1とイベント2のAND待ち */
 /* (両方のイベントが発生したら待ち解除) */
 wai_flg(FLAG_ID,0x3,TWF_ANDW, &flgptn);
 proc_something();
 }
}
```

(c) 複数イベントの複合条件

間に思われたかもしれません。この機能は「他の実行単位から処理要求を受けている」という観点で見たときに初めて意味が出てくるのです(**図 17**, p.171).

1回目の処理が完了しないうちに2回目の処理要求が入った場合,2回目の割り込みハンドラから発行されるタスク起動要求/起床要求はキューイングされます.1回目の処理が完了した時点でタスクが終了/スリープしようとしても、キューイングされていた起動要求/起床要求とキャンセルされ、タスクは状態遷移しません.結果として、2回目の処理要求も取りこぼさないで処理されます.

#### 〔表 4〕各種通知方式の比較

| 方 式     | サービスコール              | 情報量 | オーバヘッド | 処理要求の最大<br>キューイング数 | 受け側の<br>タスク数 | 備考                                        |
|---------|----------------------|-----|--------|--------------------|--------------|-------------------------------------------|
| タスク起動   | ext_tsk<br>iact_tsk  | 少ない | 小      | 1回*1               | 単数           | タスクスタックを開放できる.<br>コンテキストを保存する必要がない        |
| タスク起床   | slp_tsk<br>iwup_tsk  | 少ない | 小      | 1 🖽 * 1            | 単数           |                                           |
| セマフォ    | wai_sem<br>isig_sem  | 少ない | 中      | 調整可能               | 複数も可能        |                                           |
| イベントフラグ | wai_flg<br>iset_flg  | 中   | 中      | 1 🖽 * 2            | 単数*3         | ビットパターンによって処理を選択できる.<br>複数イベントの複合条件を設定できる |
| データキュー  | rcv_dtq<br>ipsnd_dtq | 多い  | 大      | 調整可能               | 複数も可能        |                                           |

- ※1:スタンダードプロファイルでは1回以上と規定されている(アプリケーション側で仮定して良いのは1回まで)。
- ※2:イベントフラグ生成時に属性として、TACLRを指定し、タスクの待ち解除時にイベントフラグのすべてのビットをクリアする設定にした場合.
- ※3:スタンダードプロファイルでは複数のタスクが同一のイベントフラグを待つことはサポートしなくてもよい。
- 一般に通知できる情報量とオーバヘッドはトレードオフの関係にある,状況に応じて適所適材に使い分けることが重要,

#### 

タスクの周期起動を行いたい場合、どのようなプログラムにすればいいのでしょうか。  $\mu$ ITRONでは、タスクを登録する際にその属性として「周期起動」を設定して周期起動タスクを直接扱うような機能は用意されていません。その代わり、「周期ハンドラ」という機能があり、登録した関数を設定した時間間隔でカーネルが呼び出してくれます。

• 周期ハンドラとは

周期ハンドラは非タスクコンテキストで実行されます. つまり, 周期ハンドラはタスクより割り込みハンドラに近い扱いです(実際, 周期ハンドラもタイマ割り込みハンドラの一種と考えれば, わかり 易いかと思う).

手順を以下に示します.

- 静的 API CRE\_CYC()で周期ハンドラをカーネルに登録 起動間隔はここで設定します。
- コンフィギュレーションファイル:

CRE\_CYC(CYCHDR1, {TA\_HLNG|TA\_STA,0,

cyclic handler, PERIOD TIME, 0 });

TA\_HLNGと TA\_STA は  $\mu$ ITRON4.0 仕様で規定される属性値で、TA\_HLNG は周期ハンドラが高級言語 ( $\mathbb{C}$ 言語) で記述されていることを示します。また、属性値として TA\_STA を指定すると、周期ハンドラ生成後に周期ハンドラを動作している状態にします (最初の周期のカウントダウンを開始する).

- 2) 周期ハンドラ内の処理
  - 2-1 処理が短い場合

→周期ハンドラ内ですべて処理してしまう

周期ハンドラ:

2-2 処理が長い場合

→周期ハンドラはタスクに通知するのみに留め, 実際の処理はタスクにまかせる

周期ハンドラ:

void cyclic\_handler(VP\_INT exinf)

```
{
    iwup_tsk(TASK_ID); /* タスク起床 */
}

通知される側のタスク:
void task(VP_INT exinf)
{
    while(1) {
        slp_tsk(); /* 起床待ち */
        周期的に行いたい処理;
    }
}
```

周期ハンドラからタスクへの情報通知をどのように行うかは、割り込みハンドラからの通知の場合とまったく同じ議論が適用できるので、本文の解説を参照してください。

周期ハンドラには引き数が一つ渡せます。タスク ID を引き数として渡すと周期ハンドラを使い回すことができて、起動周期が異なる処理が複数あってもタスクごとに周期ハンドラを用意する必要がないので、メモリの節約になります(リスト E).

#### 〔リスト E〕複数のタスクでの周期ハンドラの共有



#### おわりに

今回は、システムの応答性という観点で、割り込みからの情報通知を中心にリアルタイム OS の使い方を解説しました。

初心者の方もリアルタイム OS の見た目の機能の多さに惑わされずに、必要な機能から一つずつ覚えていけば大丈夫です。 本稿がその一助になれば幸いです。

#### 参考文献

- デバイスドライバ設計ガイドライン http://www.assoc.tron.org/itron/home-j.html
- 2) 『μITRON4.0 ガイドブック』, パーソナルメディア, 2001 年
- 3) TOPPERS プロジェクト ホームページ http://www.ertl.jp/TOPPERS/

#### 〔図17〕処理要求のキューイング



4)μITRON4.0仕様

http://www.itron.gr.jp/SPEC/mitron4-j.html

5) 『リアルタイム OS と組み込み技術の基礎』, CQ 出版, 2003 年

いまい・かずひこ 宮城県産業技術総合センター

# コラム

# 組み込みソフトウェアには main()関数がない?

C言語の参考書を見ると最初に実行される関数は main() 関数と相場が決まっていますが、本稿のサンプルプログラムには main() 関数が一つも出てきません。 $\mu$ ITRON のような組み込み用 OS では一般に main() の呼び出しは行っていません  $^{\pm B}$  . 組み込みソフトウェアでは電源投入時にスタートアップルーチンと呼ばれるソフトウェアが起動され、

- ●プロセッサの初期化:動作モード設定、スタックポインタの設定
- ●ボード(システム)の初期化:とくにメモリ周りの初期化が行われた後.
- カーネルの初期化:タスクなどのカーネルオブジェクトの初期化
- ●スケジューリング開始:適切なタスクを選択して実行 と進みます。

ところでタスクをカーネルに登録する部分は何が行っているので しょうか?

μITRON4.0 仕様スタンダードプロファイルではタスクなどのカーネルオブジェクトは静的に (コンパイル時に)生成するように規定されています。この作業はカーネルの内部構造に大きく依存するのでアプリケーション開発者にこれを直接やってもらうのでは非常に煩雑ですし、ソフトウェア部品の移植性という観点からも好ましくありません。

そこで  $\mu$ ITRON4.0 仕様ではコンフィギュレータというツールが 導入されました (図 **E**). アプリケーション開発者は静的 API と呼ばれる専用の API <sup>注 C</sup> を使って、必要なカーネルオブジェクトをコンフィギュレーションファイルに記述しておきます。コンフィギュレータはコンフィギュレーションファイルを読み込んで、カーネルの内部構造に合わせた C 言語ソースコード (おもに自動割り当てされた ID の定義とカーネル内部で使用するデータテーブル) に変換し

ます. コンフィギュレータはカーネル開発者によりアプリケーション開発者に提供されます. 一度コンフィギュレーションファイルを作成しておけば、他のμITRON4.0 仕様 OS でもそのまま使えるので、アプリケーション開発者やソフトウェア部品開発者の負担が軽減されます. また、プログラムの変更でカーネルオブジェクトの数が増減しても、タスクなどの各カーネルオブジェクトの ID はコンフィギュレータが自動的に割り振ってくれるので、ケアレスミスを防ぐことができます. これは、外部で開発されたソフトウェア部品を導入する際にとくに効いてきます.

興味のある読者は、JSP カーネルのサンプルプログラムに含まれるコンフィギュレーションファイル sample1.cfgをご覧ください(コンフィギュレーションファイルの拡張子は cfg とする約束になっている)

#### 〔図 E〕システムコンフィギュレーションの手順



注B:汎用機向けプログラマからの転向者を考慮して、main()関数の呼び出しを行っている流儀の組み込み用OSもある。

注C:文法的には、通常のカーネルオブジェクト生成用のサービスコールを大文字に置き換えたものを使用するだけなので、アプリケーション開発者が新たに覚えなければならない事項はほとんどない。たとえば、タスク生成のサービスコール cre\_tsk()に対応する静的 API は CRE\_TSK()で、引き数の並びもまったく同じ。



# ACPIによるPC/ATの 電力管理とコンフィグレーション



罴

安達健一

Advanced Configuration and Power Interface

従来 PC/AT の電力管理には APM(Advanced Power Management)が使われてきた。しかし昨今のハードウェアの進化によって、APM では要求に応じられないような局面も出てきた。そこで登場した ACPI(Advanced Configuration and Power Interface)は、電力管理はもちろんのこと、多様な資源のコンフィグレーションを可能にしている。後編の今回は、Linux と Windows について、ACPI の実際の挙動をカーネルデバッガを用いて追いかけてみる。

(編集部)

前編では、まず ACPI の基本コンセプトを確認し、主要な ACPI テーブルと、システム初期化時における ACPI の役割を解説しました。

今回は「OSから見える」イベントとして通知された ACPI イベントを、OSがどのようにハンドルしているのか、実例を中心に解説したいと思います.

# 兴

#### ACPI イベントのハンドルーー Linux 編

それでは、ここからは読者の皆様も手を動かして、OSが ACPI イベントをハンドルするようすをカーネルデバッガで追 いかけてみましょう。

カーネルデバッガ

オープンソースで納得の行く追跡がしたいという向きのために、Linuxでの実装を中心に OS の ACPI イベントハンドリングを見ていくことにします。手っ取り早く実機をいじりたいので、ターゲットマシン単体でカーネルデバッグができる KDB

#### 〔図1〕カーネルコンフィグレーションの画面



(Built-in Kernel Debugger)を用います.

Linux の ACPI サポートは、現在カーネル 2.5 系をメインター ゲットに、非常に活発に変更が行われています。本来であれば、2.5 系で進めたいところですが、KDB が間に合っている 2.4 系で追っていくことにします。

また、Windows に関しても、最近は製造元である米国 Microsoft が高品質なデバッガパッケージを無償提供し、デバッグに必要なシンボルも公開しています。そこで、これらを利用した Windows XP での ACPI イベントハンドリングのようすも一通り見ておきます。

● Linux カーネルへの KDB の適用

Linux 標準カーネルを本家のアーカイブサイト (http://www.kernel.org/)などから入手します。今回は、バージョン 2.4.20 を対象とします。

続いて、Linuxカーネルのバージョンに合致する KDB を SGI のサイト (http://oss.sgi.com/projects/kdb/) からダウンロードしてください。 KDB はカーネル本体へのパッチとして提供されるので、解凍して次のように適用してください。

# cd linux-2.4.20

# patch -p1 < kdb-v4.2-2.4.20-common-1

# patch -p1 < kdb-v4.2-2.4.20-i386-1

次に ACPI サポートと KDB を有効にするため、カーネルを 再構築します.たとえばカーネルのコンフィグレーションを、

# make menuconfig

で行う場合は,次の箇所で設定します.

Main Menu

General setup--->

[\*] Power Management support

[\*] ACPI support以下、ACPI サポートのサブオプションは必要に応じて有効化(図1)

Kernel hacking--->

[\*] Kernel debugging

[\*] Built-in Kernel Debugger support 以下,カーネルデバッグ関連のサブ オプションは必要に応じて有効化(**図2**)

## ACPIによるPC/ATの 電力管理とコンフィグレーション

#### 「図2〕カーネルデバッガを有効にする



なお、カーネルコンフィグレーションメニューの配置はバー ジョンごとに変化していますから、2.4.20以外でテストされる 方は注意してください.

再構築済みカーネルのブート はじめに KDB がオンになっているか、確認します。

# cat/proc/sys/kernel/kdb

1

1が返ってくれば、KDBはオンになっています。

ACPI サポートを有効にしたカーネルでブートすると、/proc の下に acpi というディレクトリが作られます、この下に event というエントリが現れます. Linux では、電源ボタン押 し下げのような ACPI 管理下のイベントを拾うと、このエント リにイベント内容が出力されます.

cat コマンドでこのエントリを監視しておくと、ACPI イベ ントが発生したときに、対象デバイスとイベントの種別が表示 されます.

# cat/proc/acpi/event

button power 00000080 00000000

ac adapter 0 00000080 00000000

battery 0 00000080 00000000

したがって、ユーザーランドのプログラムで、たとえば 「ACPIイベントが上がったときにシステムスリープに入る」と いったアクションを起動したい場合は、このエントリをモニタ しておけばよいわけです。

そのもっともシンプルな例が、acpidという ACPI イベント を監視してアクションを起こすデーモンです。 acpid は現在,

#### 「図3」ACPIイベントの取り扱い



SourceForge 上に ACPI メインとは別のプロジェクト(http:// acpid.sourceforge.net/)として存在し、RPM パッケー ジも配布されています.

今回は、ACPI サブシステムに ACPI イベントの発生が通知 されてから、この/proc/acpi/event エントリに情報を出力 するまでの処理を追いかけます(図3)

ソースコードの机上チェック

動作中のシステムを KDB で覗く前に、ソースコード上で Linux の ACPI イベントハンドリングを確認しておきましょう.

なお、繰り返しになりますが、Linux上の ACPI サポートは、 現在もっともアクティブに開発が進められている分野の一つで す. そのため、ここで動作を調べているバージョン 2.4.20 と最 新のものとは大幅に内容が変更されています.

ただし、本稿では対象を ACPI イベントハンドリングの大枠 だけに限定しており、この根本的な処理範囲では、2.4.20当時 から現在に至るまで本質的な変化はそう多くはありません.

ソースコードのナビゲーションは、読者の皆様がふだん使い 慣れている環境で行ってください。筆者は、Webベースでクロ スリファレンスができる Linux Cross-Referencing project の サイト(http://lxr.linux.no/source/)やRed Hatの Source Navigator (図 4) を使っています.

#### ▶ SCI 受け付け

ACPIのコードは linux-2.4.20/drivers/acpi/にあり ます. ソースコードのロケーションは、断りがない限り Linux 2.4.20 標準カーネル上での位置を、drivers/acpi/からの相

# **⑤ ◎** ※

対パスで表記しています.

前編で強調したように、ACPIのキーコンセプトの一つが、「OS から見えない」SMI (System Management Interrupt) から「OS から見える」SCI (System Control Interrupt) へのパラダイムシフトでした。

したがって、ACPIではプラットホームで発生する ACPI管理下のイベントは、OSの用意する関数によって明示的に処理を行わなければなりません。

この SCI を受け付ける割り込みサービスルーチンが events/ evsci.cの acpi\_ev\_sci\_handler() (y **ノスト 1**) です.この関数の役目はきわめて明瞭で,本当に ACPI イベントが上がっていることを確認のうえ,イベント種別を判定して処理を振り分けています.

ACPI イベントには、どの ACPI 対応マシンにも共通して存在するような、固定イベント (Fixed Feature Event)と、汎用的なイベント [General Purpose Event (GPE)] があります.

前者は、イベント発生が通知されるレジスタの名称やビット 位置が、ACPI仕様書で固定されていて、イベントのハンドル も ACPI OSの中でほぼ完結しています。上の例では②の events/evevent.c:acpi\_ev\_fixed\_event\_detect() が、この固定イベントの検出と処理を担っています。

後者の汎用イベントについて解説します。どのレジスタのどのビットをどのイベントに割り振るかは、マシンの製造元が決定し、かつイベント処理用のコードも、GPEハンドラと総称されるコントロールメソッドとして ACPI BIOS内に用意されます。ACPI OS は汎用イベントを受け付けた場合、ACPI BIOSの GPEハンドラを AMLインタプリタを介して実行し、当該ACPIイベントが期待する処理を行います。上では③のevents/evevent.c:acpi\_ev\_gpe\_detect()が、この汎用イベントの検出と処理を担っています。

では、さっそくの~③の関数にブレークポイントを設定したうえで、電源ボタン押し下げという ACPI イベントを起こし、OS側の動作を追跡しましょう.

KDBでは、Pauseキー押し下げなどで、デバッガ画面に制御を渡します。"[CPU番号]kdb>"というプロンプトが現れたら、bpコマンドでブレークポイントをセットし、goコマンドでいったんデバッガから抜けます(図5).

電源ボタンを押し下げると、ブレークポイント0の SCI 割り込みサービスルーチンでブレークします(図6).

ここで、goコマンドで進めると、残りのブレークポイントにも順次引っ掛かるのがわかります。

ところで、今追いかけている処理は、SCI受け付け後、それが固定イベントか、汎用イベントかを識別することでした。もう一度関数の呼び出し関係を整理しておきましょう。

#### 〔図 4〕 Source Navigator の画面



# ACPIによるPC/ATの電力管理とコンフィグレーション

... ...

```
+acpi_ev_fixed_event_detect() // .....②
+acpi ev gpe detect() // .....③
```

②で、固定イベントが上がっていないかチェックしています。 固定イベントであれば、ACPI 仕様書に規定された Power Management イベントブロック (PM1a\_EVT\_BLK, PM1b\_ EVT\_BLK) のステータスレジスタで、発生したイベントのビットがセットされ、かつイネーブルレジスタの対応するビットもセットされているはずです。

Power Management イベントブロックは、実際にはチップセット内に配置されたレジスタで、通常の I/O ポートと同様にアクセスできる領域です。また、そのアドレスは FADT テーブルから辿れることは前編で述べたとおりです。

この先、②は次のように進んでいきます。

```
+acpi_ev_fixed_event_detect()
+acpi_hw_register_read()
+acpi_hw_low_level_read()
+acpi os read port()
```

最後のacpi\_os\_read\_port()が含まれるos.cには、ホストOSであるLinuxが、ACPI CAサブシステムの要求に応じてハードウェアへ直接アクセスする関数群が定義されています。この中にはおなじみのinb/inw/in1/outb/outw/outlやメモリ、PCI コンフィグレーションレジスタへアクセスするコードが並んでいることがわかると思います(リスト2)。

**リスト3**に、I/Oポートから値を読み出すまでの処理のうち、 本文に書ききれなかった部分のデバッグログを示します。

#### ▶イベントハンドリング

SCI は別の見方をすれば、ACPI" デバイス"からの割り込みです。そのため、一般の割り込みサービスルーチン同様、速度的な制約を受け、SCI ハンドルに時間を要する場合は、その全

#### (リスト1) acpi\_ev\_sci\_handler()

```
/**********************
  FUNCTION .
              Acpi ev sci handler
  PARAMETERS: Context - Calling Context
  RETURN:
              Status code indicates whether interrupt
                                               was handled.
  DESCRIPTION: Interrupt handler that will figure out what
              function or control method to call to deal with
              a SCI. Installed using BU interrupt support.
static u32
acpi_ev_sci_handler (void *context)
           interrupt handled = INTERRUPT NOT HANDLED:
   и32
   FUNCTION_TRACE("Ev_sci_handler");
    * Make sure that ACPI is enabled by checking SCI_EN.
    * Note that we are required to treat the SCI interrupt as
    * sharable, level, active low.
   if (!acpi_hw_register_bit_access (ACPI_READ,
                           ACPI_MTX_DO_NOT_LOCK, SCI_EN)) {
       /* ACPI is not enabled;
           this interrupt cannot be for us */
       return VALUE (INTERRUPT NOT HANDLED);
    * Fixed Acpi_events:
    * Check for and dispatch any Fixed Acpi events that have
     occurred
   interrupt_handled |= acpi_ev_fixed_event_detect ();
    * GPEs:
    * Check for and dispatch any GPEs that have occurred
   interrupt_handled |= acpi_ev_gpe_detect ();
   return VALUE (interrupt handled);
```

#### 〔図 5〕ACPIイベントを発生させ、KDBで動作を追跡する

```
[0]kdb> bp acpi_ev_sci_handler
Instruction(i) BP #0 at 0xc01be290 (acpi_ev_sci_handler) is enabled globally adjust 1

[0]kdb> bp acpi_ev_fixed_event_detect
Instruction(i) BP #1 at 0xc01bbfa0 (acpi_ev_fixed_event_detect) is enabled globally adjust 1

[0]kdb> bp acpi_ev_gpe_detect
Instruction(i) BP #2 at 0xc01bc750 (acpi_ev_gpe_detect) is enabled globally adjust 1

[0]kdb> go
```

#### 〔図 6〕ブレークポイント 0 の SCI 割り込みサービスルーチンでブレークしたようす

```
Instruction(i) breakpoint #0 at 0xc01be290
  (adjusted)
0xc01be290 acpi_ev_sci_handler:     int3
Entering kdb (current=0xc046e000, pid 0) on processor 0 due to Breakpoint @ 0xc01be290
[0]kdb>
```

# ひ ① ※

#### 〔リスト 2〕 os.c

```
outb(value, port);
acpi status
                                                    case 32:
                                                         *(u32*) value = inl(port);
acpi os read port (
                                                                                                         break:
    ACPI_IO_ADDRESS port,
                                                        break;
                                                                                                     case 16:
    void
            *value,
                                                    default:
                                                                                                         outw(value, port);
    1132
            width)
                                                        BUG();
                                                                                                         break;
                                                                                                     case 32:
    u32 dummy;
                                                                                                         outl(value, port);
                                                                                                         break;
                                                    return AE_OK;
    if (!value)
                                                }
                                                                                                     default.
        value = &dummv:
                                                                                                         BUG():
                                                acpi_status
    switch (width)
                                                acpi_os_write_port(
                                                    ACPI IO ADDRESS port.
                                                                                                     return AE OK;
                                                    NATIVE_UINT value,
    case 8:
        *(u8*) value = inb(port);
                                                    1132
                                                             width)
        break;
    case 16:
                                                    switch (width)
        *(u16*) value = inw(port);
        break:
                                                    case 8:
```

#### 〔リスト3〕デバッグログ

```
[0]kdb> bt // コールバックトレース表示
                                                                                                            0xc01af421
                                                                 0xc0laf44d acpi os read port+0x5d:
          EIP
                     Function (args)
                                                                                                        acpi_os_read_port+0x31
0xc046fe08 0xc01af448 acpi_os_read_port+0x58 (0xf100,
                                                                   . . . .
        Oxc046fe28, Ox10,,, // 読み出し I/O ポートアドレス
                           // 読み出し値の格納先, 読み出す長さ
                                                                 [0]kdb> ssb // 次のブランチまで実行
0xc046fe38 0xc01c1629 acpi_hw_low_level_read+0xe9 (,,,,,
0xc046fe6c 0xc01c1007
                     acpi_hw_register_read+0xe7 (,,,,
                                                                 0xc0laf44d acpi_os_read_port+0x5d:
                                                                                                            0xc01af421
                                                                                                     jmp
Oxc046fea8 Oxc01bbfd5
                     acpi_ev_fixed_event_detect+0x35 (,,,,,
                                                                                                        acpi_os_read_port+0x31
0xc046fed4 0xc01be315
                     acpi_ev_sci_handler+0x85 (,,,,
                                                                 [0]kdb> rd
                                                                 eax = 0xc0461111 ebx = 0x0000f100 ecx = 0xc046fe28
0xc046ff00 0xc010973b handler IRQ event+0x6b (,,,,
                                                                   edx = 0x0000f100
                                                                 esi = 0xc7f794bc edi = 0x0000f100 esp = 0xc046fe00
[0]kdb> rd // レジスタの状態一覧
                                                                   eip = 0xc01af44d
eax = 0xc046fe00 ebx = 0x0000f100 ecx = 0xc046fe28
                                                                 ebp = 0xc046fe08
 edx = 0x0000f100
esi = 0xc7f794bc edi = 0x0000f100 esp = 0xc046fe00
 eip = 0xc01af448
                                                                 // ACPI Debugger 機能の使用例
                                                                 [0]kdb> acpi // KDB から ACPI Debugger に入る
ebp = 0xc046fe08
                                                                 - Tables // ACPI CA サプシステムがメモリ内にコピーした
                                                                          // ACPI テーブル群の先頭アドレスとテーブル長を列挙
[0]kdb> id 0xc01af448 // これから実行する命令のディスアセンブル
                                                                 DSDT at c88020cc length 3E5B
                                                                 FACP at c7f79428 length F4
0xc0laf448 acpi_os_read_port+0x58:
                                          (%dx), %ax
 // I/O ポート 0xf100 から 1 word 分読み出し,
0xc0laf44a acpi_os_read_port+0x5a:
                                          %ax, (%ecx)
 // ecx がポイントするアドレスに格納
                                                                 - q // KDB に戻る
```

過程を割り込みサービスルーチン内で行うわけにいきません。

イベント種別が汎用イベントだと、そのハンドリングは複数のステージにまたがるので、本質的な部分は割り込みのボトムハーフ処理(Delayed Procedure Call: DPC)に回します。

OS は割り込みのトップハーフで、汎用イベントが発生しているビット位置を特定し、そのビットに呼応する GPEハンドラの実行をキューイングします。そしてボトムハーフの処理が走れるようになったら、AMLインタプリタを用いてキューイングされた GPEハンドラを実行していくわけです。

なお, 汎用イベントを収集するレジスタの各ビットにどんな イベントを結びつけるかは、マシンの製造元がそれこそ「汎用」 的に自由に決定することができます.

**リスト4**のように、ACPI OS に通知したい汎用イベントがあるならば、まずそれをルーティングする先のビットと、レベルで入るのかエッジで入るのかを定義します。そして、その汎用

イベントで実際に伝えたい内容は何か、またどんなアクションを OS にしてもらいたいのかを GPE ハンドラ内に記述します.

リスト4では、どれも単純にイベントの発生源であるデバイスと、イベントの中身を ASL の Notify 命令で OS 内の関係するエンティティに通知しているだけです。

しかし、現実の ACPI BIOSでは、もっと複雑に、いろいろなレジスタを参照して条件判断しています。あるいは、複数のイベントをいったん組み込みコントローラに集約して、OSへは組み込みコントローラからの汎用イベントとしてまず通知し、その後、AMLインタプリタから GPE ハンドラコードを介してクエリーをかけてイベント種別とそのハンドリングを特定するようなこともよくあります(図7)。

このあたりはぜひ, 前編で紹介した米国 Intel 製の AML ディスアセンブラ (http://developer.intel.com/technology/iapc/acpi/downloads.htm)で, お使いの

# ACPIによるPC/ATの電力管理とコンフィグレーション

#### 〔リスト4〕ACPI OS に通知したい汎用イベント

```
Scope (Y GPE) // GPE ハンドラ群の非常にシンプルな実装例
   Method ( L00, 0, NotSerialized)
   // GPE pin 0x0 にレベルで入った汎用イベント用のハンドラ
    Notify (¥_TZ.THR0, 0x80)
    // 放熱管理のための Thermal Zone における温度変化
   Method ( LO1, 0, NotSerialized)
   // GPE pin 0x1 にレベルで入った汎用イベント用のハンドラ
   Notify (% PR.CPUO, 0x80)
    // Intel SpeedStep などの CPU パフォーマンス制御でサポート
    // される最高ステートの切り替え
   Method ( L03, 0, NotSerialized)
   // GPE pin 0x3 にレベルで入った汎用イベント用のハンドラ
      Notify (Y SB.PCIO.USBO, 0x02)
       // USB ホストコントローラ USBO 配下のデバイスが発生
      // させたウェイクイベント
   Method ( LOB, 0, NotSerialized)
   // GPE pin 0xB にレベルで入った汎用イベント用のハンドラ
      Notify (¥ SB.SLPB, 0x02)
      // スリープボタン押し下げによって発生したウェイクイベント
```

PCの ASLコードを逆ダンプし、¥\_GPEのスコープにある GPE ハンドラを確認してみてください。

Windows版では、コマンドラインから iasl -dとすれば、 レジストリ

HKEY\_LOCAL\_MACHINE\HARDWARE\ACPI\DSDT の下にコピーされた DSDT の内容がディスアセンブルされました.

また Linux であれば、/proc/acpi/の下に DSDT のコピーが公開されていますから、

# iasl -d /proc/acpi/dsdt とすればOKです.

#### ▶ユーザーランドへの通知

ここまでが、カーネルモードでACPIイベントが処理されていくようすです。もちろん、いくつかのACPIイベントは、その発生がユーザーランドに伝達され、適切なアクションが起動されることに意義があります。

電源ボタン押し下げでシャットダウンさせるケースなどは典型的な例ですが、ほかにもパターンは多数あります.

たとえば、電源に接続した状態からバッテリ駆動に切り替えたときに、Intel SpeedStep などのプロセッサ省電力テクノロジでサポートされる最高動作ステートをダウングレードさせたり、放熱のためにファンの回転を許可したり、またディスプレイの輝度を落とすといったことができます。

あるいはバッテリの残量低下にあわせて、システムを休止状態(Suspend To Disk: S4)へ移行させるといったことも ACPI

#### 〔図7〕汎用イベント(GPE)のハンドリング



イベントと、そうしたパワーマネージメントアクションをリンクさせることで可能になります.

そのためにも、カーネルモードでACPIイベントを検知した ら、それをユーザーランドに通知してあげなければなりません。

Linux では、/proc/acpi/event に、発生した ACPI イベントを書き込むことでこれを実現しています。

ただし現状の課題は、このエントリを自分で監視するか、あるいはそれをすでに取り入れているデーモンである acpid を利用して、その制御スクリプトに手を入れることぐらいしか、便利でかつ拡張性の高い電力管理の方法がありません。

C言語ベースで libpower というライブラリも存在しますが、 メンテナンスの状態はあまり芳しくないようです。

# 꼸

#### ACPI イベントのハンドルーー Windows 編

ここまでは、オープンソースである Linux を題材にして、ACPI のイベントハンドリングのようすをカーネルデバッガを 併用し解説してきましたが、Windows XPでは、この ACPI イベントハンドリングをどのようにしているのでしょうか。 Windows XPでの例を見てみましょう。

- Windows XP の観察
- ▶必要なソフトウェアの入手

Windowsファミリのカーネルデバッグには、製造元である Microsoft が公開している最新のカーネルデバッガとシンボル が必須です.

まずデバッガを次のサイトからダウンロードしてインストールしましょう.

# **少** ① ※

#### • Microsoft Debugging Tools

http://www.microsoft.com/whdc/ddk/

debugging/default.mspx

シンボルは、ターゲット OS のバージョンにあわせて、次のサイトからダウンロードするか、あるいは Web ベースで公開されているものを利用することもできます。

#### • How to Get Symbols

http://www.microsoft.com/whdc/ddk/

debugging/symbols.mspx

デバッガのインストールが完了したら,カーネルデバッグの 設定をターゲットとホストの両方で行います.

Windows XP 以降だったら、シリアルのクロスケーブルだけでなく IEEE1394 接続でデバッグすることもできます.

また、カーネルデバッグ用のデバッガには、GUIベースのWinDbgとキャラクタベースのKDがありますが、現在はどちらも共通のエンジンを使用しているため、操作性以外の性能差はありません。今回は説明が容易なため、KDでシリアル接続する前提で進めていきます。

カーネルデバッグの設定自体は、ダウンロードしたデバッガパッケージに含まれるヘルプファイル debugger.chm を参照してください。また、WinDbg で操作したい場合や、COMポートがないなどの理由でIEEE1394 接続での方法を試す必要がある場合も、同様にヘルプを参照してください。従来とは異なり、ヘルプもたいへん充実した内容となっているので、開発者であれば設定にとまどうことはないと思われます。

#### ▶ターゲットマシンの起動

それでは、準備が整ったところで、ターゲットマシンをデ バッグ有効モードで起動します。

このとき、ホスト側は、以下のようにシンボルパス、デバッグ用のポートおよび通信速度が環境変数としてセットされた状態で待ち受けています.

#### > set

 $$$ NT_SYMBOL_PATH=SRV*C:$$Websymbols*http://msdl.microsoft.com/download/symbols // <math>$ 

- > set \_NT\_DEBUG\_PORT=COM1
- > set NT\_DEBUG\_BAUD\_RATE=115200
- > kd -d

Microsoft(R)Windows Debugger .....

Copyright(c)Microsoft Corporation....

#### Opened¥¥.¥COM1

Waiting to reconnect...

この例では、①のように米国 Microsoft が Web ベースで公開 しているシンボルサーバをシンボルパスとして指すようにして みました。こうすると、バージョンの合致したシンボルがデバ ッガ上でロードされ、かつ指定したローカルフォルダ (上では C:\footnote{Websymbols}\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\footnote{\

なお、以下で紹介するコマンドは一般に公開されているデバッガとシンボルで実行可能なものばかりです。またほとんどすべてについて、ヘルプファイルに記載があります。詳細について不明なときは、ヘルプファイルを確認してください。

#### ▶基本コマンドの使い方

まず、SCIを発行する ACPI レジスタに割り当てられた割り 込みベクタと、割り込みサービスルーチンを特定しなくてはい けません。

これには!idtコマンドか!arbiterコマンドを用います.ホスト側でCtrl+Cキーを押し下げブレークインし,コマンドを実行してください.

実行例を**リスト5**に示します。すると、ACPIは IRQ 9に割り振られており、SCIを受け付ける割り込みサービスルーチンは、ACPIドライバの ACPIInterruptServiceRoutine()という関数であることがわかります。この関数にブレークポイントを設定しておきます。

kd> bp ACPI!ACPIInterruptServiceRoutine
kd> q

Breakpoint 0 hit

ACPI!ACPIInterruptServiceRoutine:

fc43de3e 55

push ebp

そして, このブレークポイントに引っ掛かったら, リターン アドレスまで wt コマンドで走らせてみましょう.

kd> k1

ChildEBP RetAddr

80543e4c 804f20ba

ACPI!ACPIInterrupt ServiceRoutine

kd> wt 804f20ba

実行結果は**リスト5**にあるとおりです。このwt コマンドによる実行追跡結果を見ると、やはり Linux 同様、イベントが固定イベントが汎用イベントか、また固定イベントだとして、Power Management イベントブロックのどこのビットがセットされているのか、といった点をチェックしているであろうことが容易に推察されます。

#### ▶その他のコマンド

イベント種別を判定するには、デバッガで先回りして FADT からたどり、Power Management イベントブロックの状態を確認しておくこともできます.

そうすれば、OS側がどのような判定を下すかあらかじめ予想がつくことになり、便利です。

Windows が内部に保持する FADT の内容は, ずばり!fadt コマンドで得られます.

kd> !fadt

... ...

#### 〔リスト5〕コマンドの実行例

```
C:\Toebuggers> set _NT_SYMBOL_PATH=SRV*C:\Twebsymbols*http://msdl.microsoft.com/download/symbols
C:\Debuggers> set _NT_DEBUG_PORT=COM1
C: \Debuggers> set
                 NT_DEBUG_BAUD_RATE=115200
C:\Debuggers> kd -b -d
Microsoft (R) Windows Debugger Version 6.2.0007.4
Copyright (c) Microsoft Corporation. All rights reserved.
Opened ¥¥.¥COM1
Waiting to reconnect ...
Connected to Windows XP 2600 x86 compatible target, ptr64 FALSE
Kernel Debugger connection established. (Initial Breakpoint requested)
Symbol search path is: SRV*C:\footnote{\text{Websymbols*http://msdl.microsoft.com/download/symbols}}
Executable search path is:
Windows XP Kernel Version 2600 UP Free x86 compatible
Built by: 2600.xpclient.010817-1148
Kernel base = 0x804d8000 PsLoadedModuleList = 0x8054db28
System Uptime: not available
nt!DebugService2+e:
8050e563 cc
kd> g // 起動時にいったんプレークするよう設定していた( -b )ためプレーク. スリープからのウェイク時などに便利.
       // 必要がなければ何もせずそのまま go
// Ctrl+C でプレークイン
Break instruction exception - code 80000003 (first chance)
    You are seeing this message because you pressed either
       CTRL+C (if you run kd.exe) or,
       CTRL+BREAK (if you run WinDBG)
   on your debugger machine's keyboard.
                   THIS IS NOT A BUG OR A SYSTEM CRASH
* If you did not intend to break into the debugger, press the "g" key, then
* press the "Enter" key now. This message might immediately reappear. If it * does, press "g" and "Enter" again.
******************
nt!RtlpBreakWithStatusInstruction:
80515064 cc
                         int
kd> !idt // ACPI にアサインされた割り込みベクタと割り込みサービスルーチンの確認
Dumping IDT:
30:
       806c26e4 hal!HalpClockInterrupt
       ffb2d9dc i8042prt!I8042KevboardInterruptService (KINTERRUPT ffb2d9a0)
31:
       806bd160 hal!HalpProfileInterrupt
38:
      80e977dc ACPI!ACPIInterruptServiceRoutine (KINTERRUPT 80e977a0)
39:
       ff9ff414 NDIS!ndisMIsr (KINTERRUPT ff9ff3d8)
3a:
                portcls:CInterruptSync::Release+0x10 (KINTERRUPT ff9fba90)
       80e933d4 ohci1394!OhciIsr (KINTERRUPT 80e93398)
                pcmcia!PcmciaInterrupt (KINTERRUPT 80e0dd98)
                pcmcia!PcmciaInterrupt (KINTERRUPT 80e0da68)
                 VIDEOPRT!pVideoPortInterrupt (KINTERRUPT ff9ff648)
                USBPORT!USBPORT_InterruptService (KINTERRUPT ffb2c298)
                USBPORT!USBPORT_InterruptService (KINTERRUPT ffbbac10)
3c:
       80d798e4 i8042prt!I8042MouseInterruptService (KINTERRUPT 80d798a8)
        80e0c9d4 atapi!IdePortInterrupt (KINTERRUPT 80e0c998)
3e:
3f:
       80e39044 atapi!IdePortInterrupt (KINTERRUPT 80e39008)
kd> !arbiter 4 // 割り込みリソースの確認
DEVNODE 80e753d0 (HTREE¥ROOT¥0)
 Interrupt Arbiter "RootIRQ" at 8054b960
    Allocated ranges:
     000000000000039 - 00000000000039 S 80e70aa8 (ACPI)
    Possible allocation:
      < none >
    DEVNODE 80e703e8 (ACPI_HAL\PNP0C08\0)
     Interrupt Arbiter "" at fc473780
       Allocated ranges:
         000000000000000 - 00000000000000 S 80e70aa8 (ACPI)
kd> bp ACPI!ACPIInterruptServiceRoutine // ACPI からの割り込み (=SCI) 用のサービスルーチン
kd> g
```



#### 〔**リスト 5**〕コマンドの実行例(つづき)

| ADMINISTRATES    ADMINISTRATES    ADMINISTRATES    ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES  ADMINISTRATES   | (72(13) = (2)      |                     |               |          |                 |                            |                             |
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------|---------------------|---------------|----------|-----------------|----------------------------|-----------------------------|
| ESSISTION   Public    | Breakpoint 0 hit   | -Comming B          |               |          |                 | FACT - BODY - ffffffff8060 |                             |
| Int. Model                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | _                  |                     | - lan         |          |                 |                            |                             |
| Cold      |                    | pusn                | epp           |          |                 |                            |                             |
| ### SMARTH CONTROL NO.   SMARTH CONTROL   PAPER   PAPER   SMARTH CONTROL   PAPER   SMARTH CONTROL   PAPER   PAPER |                    | Arga to Child       |               |          |                 |                            |                             |
| ACPI      |                    |                     |               |          |                 |                            |                             |
| 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          | ACPI On Value:  | 0x055                      |                             |
| 1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          | ACPI Off Value: | 0x0aa                      |                             |
| 8                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 5 0 [ 0]           | ACPI!ACPIInterrup   | ptServiceRout | ine      |                 | SMI CMD For S4 State:      | 0x077                       |
| 10                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 1 0 [ 1]           | ACPI!ACPIIoRead     | iPm1Status    |          |                 | PM1A Event Block:          | 0x0000f100                  |
| 13                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 8 0 [ 2]           | ACPI!READ_PM:       | L_STATUS      |          |                 | PM1B Event Block:          | 0x00000000                  |
| 13                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               | er       |                 |                            |                             |
| 15   17   2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |                    | -                   |               |          |                 |                            |                             |
| Process                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |                    |                     |               | er       |                 |                            |                             |
| 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          |                 | _                          |                             |
| PM Timer Block:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |                    |                     |               |          |                 |                            |                             |
| S                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               | ine      |                 |                            |                             |
| 15                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    | -                   |               | rister   |                 |                            |                             |
| 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     | _             |          |                 | _                          |                             |
| 19                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               |          |                 |                            |                             |
| 7   23   2   ACPIACPIRACEMENT   Communication   Communicatio   |                    |                     |               | er       |                 | _                          |                             |
| 17   30 [ 1]   ACPITACPIGNEMENT   C2 Latency:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |                    |                     |               |          |                 |                            |                             |
| S   0   2   ACPITACPIREAGGOSTATUREGRITER   S   0   3   ACPITED TOTAL DESCRIPTIONS   Collected    |                    |                     | _             |          |                 | _                          |                             |
| 15                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               | gister   |                 |                            |                             |
| 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          |                 | C3 Latency:                | 0x003e9                     |
| Duty Cycle Index (                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 4 0 [ 4]           |                     |               |          |                 |                            | 0x00000                     |
| Duty Cycle Index Width                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | 19 4 [ 3]          | ACPI!DefRea         | adAcpiRegist  | er       |                 | -                          | 0x00000                     |
| 18                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 7 23 [ 2]          |                     |               | gister   |                 |                            |                             |
| A                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    | _                   |               |          |                 |                            |                             |
| Century byte (CMOS): 0x32                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |                    |                     | _             | -        |                 | _                          |                             |
| Book Architecture:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               | er       |                 |                            |                             |
| Plags                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |                    |                     | _             |          |                 |                            |                             |
| 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          |                 |                            |                             |
| System supports C1 Power state on all processors   System supports C2 in PM and UP configurations   Sieps Button is treated as a generic feature   PT                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |                    |                     |               | gister   |                 | _                          |                             |
| 18                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    | -                   |               |          |                 |                            |                             |
| Sleep Button is treated as a generic feature   22                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     | _             |          |                 |                            |                             |
| RTC Wake can work from an 84 state                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               | er       |                 |                            |                             |
| ACPIIACPIREAGOPSTATURES   SAPITACE   1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |                    | -                   |               | 2.20     |                 |                            |                             |
| AB   126   1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |                    |                     |               |          |                 | RIC WARE CAIL WOLK LIO     | all Di Scace                |
| 18                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     | -             | Arecer   |                 | kd> id f100 // デバッガから      | T/O ポートを読み書きできる             |
| ACPIICLEAR PM_STATUS_BITS                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |                    |                     |               | ine      |                 |                            | 270 0 1 0000 2000           |
| ACPIINFORMATION (80efce0)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |                    |                     |               | 21116    |                 |                            | の主要な情報一覧                    |
| ## A [ ] 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                    |                     |               | 2        |                 |                            |                             |
| 14                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               |          |                 | RSDT                       | - fca8e000                  |
| 14                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               | 2        |                 | FADT                       | - fca90054                  |
| 18                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |                    |                     |               |          |                 | FACS                       | - fca91000                  |
| 35   263   0   ACPI:ACPIInterruptServiceRoutine   298 instructions were executed in 13 events (0 from other threads)   GlobalLockQueueLock   - 00000000   - 00000000   - 00000000   - 00000000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |                    |                     |               | ine      |                 | DSDT                       | - fc9400cc                  |
| 298 instructions were executed in 13 events (0 from other threads) Function Name    Novertions   Minimum   | 18 0 [ 1]          | hal!HalAcpiTime     | erCarry       |          |                 | GlobalLock                 | - fca91010                  |
| Company   Comp   |                    |                     |               |          |                 | GlobalLockQueue            | - F - 80e6fcf8 B - 80e6fcf8 |
| Function Name                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | 298 instructions   | were executed in :  | 13 events (0  | from oth | er threads)     | GlobalLockQueueLock        | - 00000000                  |
| ACPIIACPIGPEISEVENT 1 48 48 48 48 ACPIIACPIINTERTUPESEVICEROUTINE 1 35 35 35 35 ACPIIACPIINTERTUPESEVICEROUTINE 1 35 35 35 35 ACPIIACPIINTERTUPESEVICEROUTINE 1 35 35 35 35 ACPIIACPIINTERTUPESEVICEROUTINE 1 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          |                 |                            |                             |
| ACPI:ACPIInterruptServiceRoutine 1 35 35 35 35 ACPI:ACPIInterruptServiceRoutine 1 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | Function Name      | nvocat              | cions MinInst | MaxInst  | AvgInst         | _                          |                             |
| ACPI      |                    |                     |               |          |                 | _                          |                             |
| ACPI!ACPIReadGpeStatusRegister 4 7 7 7 7 7 ACPI                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | _                  |                     |               |          |                 |                            |                             |
| ACPI:CLEAR PMI_STATUS_BITS 1 14 14 14 14 14 14 14 ACPI:DefReadAcpiregister 5 13 22 19 PM1a_CTRL_BLK - 00000000 (N/A) ACPI:DefWriteAcpiregister 1 14 14 14 14 1 1 - SCI_EN  ACPI:READ_PMI_STATUS 1 15 15 15 PM1b_CTRL_BLK - 00000000 (N/A) hallHalacpirimerCarry 1 1 18 18 18 PM2_CTRL_BLK - 00000000 (N/A) hallREAD_PORT_UCHAR 4 4 4 4 4 PM_TMR - 0000filo8 (00bb6cbl) hallREAD_PORT_USHORT 1 4 4 4 4 GP0_BLK - 0000filo8 (00bb6cbl) hallWRITE_PORT_USHORT 1 4 4 4 4 GP0_BLK - 0000filo8 (00) (01) GP0_BLK - 0000filo8 (00) (01) GP0_BLK - 000000004 GP1_BLK - 000000004 GP1_BLK - 000000004 GP1_BLK - 00000000000000000000000000000000000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | ACPI!ACPIIoReadPm  | IStatus             | 1 '           |          |                 |                            | _                           |
| ACPIlDefReadAcpiRegister 5 13 22 19 PM1a_CTRL_BLK - 0000f104 (1c01) ACPIlDefWriteAcpiRegister 1 14 14 14 1 1 - SCI_EN ACPIlDefWriteAcpiRegister 1 14 14 14 1 1 - SCI_EN ACPIlREAD_PM1_STATUS 1 18 18 18 PM1b_CTRL_BLK - 00000000 (N/A) hallHalAcpiTimerCarry 1 18 18 18 PM2_CTRL_BLK - 00000000 (N/A) hallREAD_PORT_UCHAR 4 4 4 4 PM_TMR - 0000f108 (00bb6cb1) hallREAD_PORT_USHORT 1 4 4 4 4 PM_TMR - 0000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 4 4 PM_TMR - 0000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 4 4 PM_TMR - 0000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 4 4 PM_TMR - 0000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 4 PM_TMR - 0000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 PM_TMR - 00000f128 (00) (01) hallWRITE_PORT_USHORT 1 4 PM_TMR -   | ACPI:ACPIReadGpeSt | Lacuskegister       | 4 '           |          |                 |                            |                             |
| ACPI!DefWriteAcpiRegister 1 14 14 14 14 17 SCT_EN ACPI!READ_PML_STATUS 1 15 15 15 PMLD_CTRL_BLK - 00000000 (N/A) hal!HalAcpiTimerCarry 1 18 18 18 18 PM2_CTRL_BLK - 00000000 (N/A) hal!READ_PORT_UCHAR 4 4 4 4 PM_TMR - 00001108 (00bb6cbl) hal!READ_PORT_USHORT 1 4 4 4 4 GP0_BLK - 00001128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00001128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00001128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 GP0_ENABLE - 00000128 (00) (01) hal!WRITE_PORT_USHORT 1 1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4                                                                                                                                                    |                    |                     |               |          |                 |                            |                             |
| ACPIREAD_PMI_STATUS 1 15 15 15 15 15 PM1b_CTRL_BLK - 00000000 (N/A) hal!HalacpitimerCarry 1 1 18 18 18 18 PM2_CTRL_BLK - 00000000 (N/A) hal!READ_PORT_UCHAR 4 4 4 PM_TMR - 0000f108 (00bb6cbl) hal!READ_PORT_USHORT 1 4 4 4 GP0_BLK - 0000f128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 0000f128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 0000f128 (00) (01) hal!WRITE_PORT_USHORT 1 4 4 4 GP0_ENABLE - 00000f128 (19) (00) GP0_LEN - 000000000 GP0_LEN - 00000000000000000000000000000000000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | _                  | egister<br>Pegister | 5 I.          | , 22     |                 |                            |                             |
| kd> !fadt // FADT のコピーを表示 FADT 806G3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x000000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB COMMID: CAPUBLE C      | _                  |                     |               |          |                 | PM1b CTRL BLK              | - 00000000 (N/A)            |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB OEMID: CQPUB C3 IATENCY C3 IATENCY C3 IATENCY C9 ISIZE - 2 GP1_SIZE - 4 PM1_EN_BITS - 0121 1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN C2_LATENCY - 0 C3 IATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |                    |                     |               |          |                 | PM2 CTRL BLK               | - 00000000 (N/A)            |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB OEMID: CQPUB C3 IATENCY C3 IATENCY C3 IATENCY C9 ISIZE - 2 GP1_SIZE - 4 PM1_EN_BITS - 0121 1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN C2_LATENCY - 0 C3 IATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | _                  |                     | 4             | 1 4      |                 | PM TMR                     | - 0000f108 (00bb6cb1)       |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB OEMID: CQPUB C3 IATENCY C3 IATENCY C3 IATENCY C9 ISIZE - 2 GP1_SIZE - 4 PM1_EN_BITS - 0121 1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN C2_LATENCY - 0 C3 IATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |                    |                     | 1 4           | 1 4      |                 | GPO BLK                    | - 0000f128 (00) (01)        |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB OEMID: CQPUB C3 IATENCY C3 IATENCY C3 IATENCY C9 ISIZE - 2 GP1_SIZE - 4 PM1_EN_BITS - 0121 1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN C2_LATENCY - 0 C3 IATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |                    |                     | 1             | 1 4      |                 | GPO_ENABLE                 | - 0000f12a (19) (00)        |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB OEMID: CQPUB C3 IATENCY C3 IATENCY C3 IATENCY C9 ISIZE - 2 GP1_SIZE - 4 PM1_EN_BITS - 0121 1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN C2_LATENCY - 0 C3 IATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |                    |                     | _             | •        | -               | GPO LEN                    | - 00000004                  |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB COMMUTABLED: SAMPLE                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | nt!KiInterruptDis  | patch+2a:           |               |          |                 | GPO_SIZE                   | - 00000002                  |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB COMMUTABLED: SAMPLE                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                    |                     |               |          |                 | GP1_BLK                    | - 0000f12c (7f) (38)        |
| kd>!fadt // FADT のコピーを表示 FADT 806c3c20HEADER - ffffffff806c3c20 Signature: FACP Length: 0x00000074 Revision: 0x01 Checksum: 0x6e OEMID: CQPUB COMMUTABLED: SAMPLE                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | kd>                |                     |               |          |                 | GP1_ENABLE                 | - 0000f12e (00) (21)        |
| FADT 806c3c20HEADER - ffffffff806c3c20  Signature: FACP  Length: 0x00000074  Revision: 0x01  Checksum: 0x6e  OEMID: CQPUB  COMMUD: CQPUB  CC2_LATENCY  CC3_LATENCY  CC3_LATENCY  CC4_LATENCY  CC4_LATENCY  CC4_LATENCY  CC4_LATENCY  CC4_LATENCY  CC4_LATENCY  CC6_CASCALLATENCY  CC    |                    |                     |               |          |                 |                            |                             |
| Signature:       FACP       GPE_SIZE       - 4         Length:       0x00000074       PM1_EN_BITS       - 0121         Revision:       0x01       1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN         Checksum:       0x6e       PM1_WAKE_MASK       - 0000         OEMID:       CQPUB       C2_LATENCY       - 0         OFWTableID:       C3_LATENCY       - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    | kd> !fadt // FAD   | 『 のコピーを表示           |               |          |                 |                            |                             |
| Length: 0x00000074 PM1_EN_BITS - 0121  Revision: 0x01 1 - TMR_EN 20 - GBL_EN 100 - PWRBTN_EN  Checksum: 0x6e PM1_WAKE_MASK - 0000  OEMID: CQPUB C2_LATENCY - 0  C3_LATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |                    | EADER - ffffffff8   | )6c3c20       |          |                 |                            |                             |
| Revision:     0x01     1 - TMR_EN 20 - GBL_EN 100 - PWRETN_EN       Checksum:     0x6e     pM1_WAKE_MASK     - 0000       OEMID:     CQPUB     C2_LATENCY     - 0       OFWM3bleID:     C3_LATENCY     - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | _                  |                     |               |          |                 |                            |                             |
| Checksum: 0x6e PM1_WAKE_MASK - 0000 OEMID: CQPUB C2_LATENCY - 0 OEMMableID: CAMPLE                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | _                  |                     | 74            |          |                 |                            |                             |
| OEMID: CQPUB C2_LATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |                    |                     |               |          |                 |                            |                             |
| OPENIALITY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |                    |                     |               |          |                 |                            |                             |
| OEMTableID: SAMPLE   C3 LATENCY - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |                    |                     |               |          |                 |                            |                             |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | OEMTableID:        | SAMPLE              |               |          |                 | C3_LATENCY                 |                             |
| OEMRevision: 0x00000001 ACPI_FLAGS - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |                    |                     | 001           |          |                 | ACPI_FLAGS                 |                             |
| CreatorID: CQ ACPI_CAPABILITIES - 0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |                    |                     | 200           |          |                 | ACPI_CAPABILITIES          | - U                         |
| CreatorRev: 0x00000000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | creatorRev:        | 0x00000             | 000           |          |                 |                            |                             |

# ACPIによるPC/ATの電力管理とコンフィグレーション

PM1A Event Block:

0x0000f100

... ...

そして、Power Management イベントブロックの状態を見るには、!fadt コマンドの出力結果のうち、PM1A Event Block エントリが示す I/O ポートの値 0x0000f100 を id コマンドで読み出せばよいわけです。

kd> id f100

0000f100: 01210011

あるいは、!acpiinf コマンドを用いると、同じデータですが、ビットの意味をデコードして出力してくれます.

kd> !acpiinf

... ...

PM1a BLK -0000f100(0011) (0121)

1-TMR STS 10-BM STS

1-TMR EN 20-GBL EN 100-PWRBTN EN

... ...

上の状態だと、固定イベントとしての電源ボタン押し下げイベントは、入ってくれば OS に通知するようイネーブルになっていますが、ステータスビットはセットされておらず、現在イベントは上がっていないことになります。

なお、今回使用した最新の Windows カーネルデバッガには、 上に例を示したような ACPI に関わる便利なコマンドが内蔵されているほか、非常に高機能な" AMLI Debugger "も組み込まれています。

これにより、一般の"フリービルド"と呼ばれるターゲットを 用いた場合でも、ACPIネームスペース内のオブジェクトの検 索や ACPIコントロールメソッドの実行トレースができます。 また、ACPIドライバ(acpi.sys)を"チェックドビルド"と呼ばれるデバッグ用機能を残したものに差し替えると、ACPIコントロールメソッドの任意のステートメントでブレークさせてステップ実行させたり、引き数やローカル変数の値を操作するといった、一般のデバッガでできるようなことがAMLインタプリタに対して行えるようになります。

Windows 製品のチェックドビルドは、米国 Microsoft の MSDN 有料会員になることで入手が可能です。シンボルはフリービルド、チェックドビルドともに無償で提供されています。

ACPI 関係のデバッガコマンドや AMLI Debugger の詳細に

ついては、デバッガパッケージに含まれるヘルプファイル, debugger.chm をご確認ください.

なお、Linuxのほうでも、今回取り上げたバージョン 2.4.20 あたりまでは KDB と連携して動作可能な ACPI Debugger 機能 が存在しますが、Windowsの同等機能と比較するとかなりシンプルなものです。

また, この Linux 版 ACPI Debugger は, メンテナンスの都合もあり, 現在のメインのツリーからはドロップされています.

#### ▶まとめ

ごく簡単でしたが、Windows もおおむね Linux と同じよう に ACPI イベントをハンドルしていそうなことが理解できたのではないかと思います.

なお、Windows の場合は、カーネル内に存在するパワーマネージメントマネージャが、発生した ACPI イベントを拾って、カーネル内部で取り決めたアクションや、ユーザー(プログラムを含む)の指定したアクションを起動するしくみがとても柔軟で、SDK/DDKに公開されているドキュメントを参照してコーディングすれば、イベントとアクションの非常に多彩な組み合わせを実現できます。こうした点については、機会があれば、稿をあらためてプログラミング Tips などを紹介したいと思います。

また、Linux側でACPIが真にパワーマネージメントの土台となるには、カーネル側の充実もさることながら、ユーザーランドでのケアも重要だと思います。こちらもまた、機会があれば、いくつかの腹案を実行に移して、読者の皆様に成果を還元できればと考えています。

#### おわりに

今回は、当初の予定を大きく変更して、ACPIイベントハンドリングの追跡に終始してしまいましたが、いかがだったでしょうか。

できればシステムスリープステートへの遷移や、プロセッサドライバといったトピックにも触れたかったのですが、残念ながら今回は見送りたいと思います.

あだち・けんいち

#### Interface BackNumber

2003年

4月号解

解説! USB 徹底活用技法

**5**月号 うまく

cb-ROMfie うまくいく!組み込み機器の開発手法

6 月号

TCP/IP の現在と VoIP 技術の全貌

7 月号

高速バスシステムの徹底研究

別冊付録付き

現代コンピュータ技術の基礎



cc/com付き C/C++ によるハードウェア設計入門



CQ出版社 ∞170-8461 東京都豊島区巣鴨1-14-2 販売部 ☎(03)5395-2141 振替 00100-7-10665



#### • 悪夢からの開放

先日,思い切って蔵書を捨ててしまった。ほとんど全部。理由の一つは、夜寝ていて、高くそびえる三つの本棚が精神衛生上よろしくなかったからである。狭い部屋の中で囲まれた本に押しつぶされる悪夢を、そのうち見る気がしていたからである。三つの本棚の中身がほとんど空になってしまったので、ついでに本棚も捨ててしまった。その代わり、鉄パイプを組み合わせたようなインテリアラックを買い、残った本や小物を置いてみた。なかなかスマートでいい。リフレッシュされた気分だ。

本を捨てた理由はほかにもある。技術関係の本はいつの間にか山のように買っていたのだが、惰性で毎月買っている雑誌も多かった。買ったあと一度も開いていない本も多かった。そこで、この際 -気に整理することにしたのだ。

極端な例では、あるベストセラーマイコン時代の末期に出た、ハードカバーの赤い本もあった。当時で9,800円もした記憶がある。その本は、マイコンのソースコードが、たんたんと記されているという、ただそれだけの本だ。一部の読者には記憶がある方もおられるかもしれない。

この本は買ったあと、たぶん一度も開いた記憶がない。そして、きっとこれからも開くことはないだろう。こんな感じだったから、長い間本を買い続けてきて、冷静に本棚を眺めてみるに、あまりにも非効率に本を買ってきた自分が嘆かわしかった。

本を思い切って捨ててから、ここのところずっと本は買っていない。いや、欲しいと思っても買わないことにしている。ほとんどの場合、買わなくても事足りることに気がついたからだ。どうしても情報が欲しければ、インターネットで多くの情報がまとめられているから問題はおきない。

#### • ディジタル万引き

出版不況といわれて久しい。とくに雑誌はかなり売れ行きが落ちているそうだ。そんな中で、最近問題になっているのが「ディジタル万引き」というものだそうだ。カメラ付き携帯の普及で、本屋へ行き必要なページのみ携帯で撮影してくる客が増えているということだ。「撮影するだけで、本を買わない人が増えたから売り上げが落ちて困る。しかし、本を見ながらメールを見ている人もいるので簡単には注意できない」と本屋の主人は言う。本を見ながらメールしている人がいるかどうかは別問

題として、本屋さんはたしかに困っているようだ。業界専門誌 『新文化』によれば、全国の書店の廃業数は2002年度で6年連続 1.000店を越えているらしい。

日本雑誌協会では、「ディジタル万引き」に注意を促すポスターを全国の書店に3万枚も張り出し、雑誌記事を撮影しないように呼びかけているらしい。日本雑誌協会の話によれば、「今日食べに行くお店や、映画など日常に密着した情報がカメラ付き携帯電話で撮影されてしまう。すべてをカメラ付き携帯電話のせいにするつもりはないが、ディジタル万引きについて、小売書店から多数の苦情が上がっており、メガピクセル携帯電話の登場でこうした行為が加速する」と警戒感を示している。

また、今回のキャンペーンには、電気通信事業者協会も協賛 しているようだ。ある種責任の一端を感じてのことか、それと も責任逃れに先手を打ったとでもいうのか。

#### 著作権と肖像権の侵害

しかし、出版業界が静かなのはおかしい。出版業界も大きな被害を受けているだろうに……、雑誌の撮影は、著作権、肖像権の侵害の可能性があるというのが今回の「ディジタル万引」を追及する根拠のようだ。しかし、著作権や肖像権の問題では、出版社自身が過去に何度も訴えられている。小説などの引用で著作権違反で告訴されるのは珍しいことでもない。また写真週刊誌なども、肖像権の侵害などで告訴されたことは、まだ記憶に新しい。

このように出版社は、事業として大量に印刷し、直接利益を 得るだけでなく、社会的影響力も大きい、そのため、著作権や 肖像権に最大限配慮すべきだろう。しかし、自分で使用するた めに、個人が携帯で雑誌を撮影するのは違法なのだろうか?

専門家ではないから詳しいことはわからないが、著作権法30条によれば、私的使用のための複製は違反ではない。しかし、政令に定めるディジタル機器による複製を除くという例外事項がある。これは音楽専用CDレコーダやDAT、MD、DCCなどが指定されている。CD-R/RWやデジカメ、携帯は政令で指定されたディジタル機器ではないので、これらを使用して撮影しても違法ではない。

もっとも、音楽のように、曲全体がまったく同じ品質のまま コピーされ、無料で流通してしまうような問題とは ・線を画す



るはずだ. 一緒に議論されても困る. カメラ付き携帯やデジカメでは, 1回1ページしか取れないし, 流通させることができるほど高画質で撮るのは難しいからだ.

また、肖像権は、憲法 13条で、幸福追求に対する国民の権利が記述されていることに起因する人格権の一つとして規定されているにすぎず、ほかに具体的な法令はない。したがって、過去の判例のみで確立されているが、すべてパブリシティ(印刷物)に対する肖像権者の権利という形であり、一般個人が携帯で撮影し自分で使用する場合に肖像権が問題になるかどうかはもちろん判例がなく、推し量る手段もない。

紀藤正樹弁護上がTVで次のようなことをいっていた.「携帯で本を撮影する行為は、記憶の延長にすぎないので、違法ではない」.彼は、TVでも一般の消費者問題などをわかりやすく解説してくれるが、じつはネット問題やマルチメディア関連の専門家でもある.

万引きは犯罪だ.しかし、現時点では、ディジタル万引きは犯罪ではない.とすると、この言葉の使い方は教育上ちょっとよろしくないのではないだろうか.正しくは、「ディジタル立ち読み」ではないのか、雑誌の内容を立ち読みした記憶を、カメラ付き携帯やデジカメで持ち帰るだけなのだから.

立ち読みがマナーとして良くないということは、当然広く知れ渡っている常識だ。だからディジタル立ち読みは遠慮しなさいというのはわかる。それでは、なぜ「ディジタル立ち読みは止めましょう」といわないのか。

「立ち読み」を電子辞書でネットの和英辞典で引いてみた。「ブラウジング」というのだそうだ。すると、ブラウザというのは、立ち読みするソフトだったのか……。だからインターネットは無料だったのだ。

#### ● 買う価値のある雑誌

100ページ以上ある雑誌のうち、数ページだけ欲しいのでその雑誌を買ったとしても、無駄なお金を使ったという感覚しか残らないだろう. これを続けていると、その雑誌はそのうち買わなくなるのではないか.

ある女性は、花火大会の日程が載っているところをカメラ付き携帯で撮影したという。また、ある男性は、ラーメンショップで自宅に近いところがあったので撮影したという。ど



うも、何ページも無差別に撮影しているわけでなく、必要な1,2ページしか撮影していないようだ(誰でもそんなにいっぱい撮影すると気が惹ける).

しかし、この程度の情報は、インターネットで公開されていることが多い。生意気かもしれないが、カメラ付き携帯で取られただけで売り上げが落ちるような雑誌は、作っている側にも責任の一端があるのではないかと思うが、どうだろうか?

本当は、「携帯でどんどん撮影してかまいません」としたほうが、人が集まって本の売り上げが増える気もする。なにせ日本の携帯電話の普及数は8000万台で、ほとんどがカメラ付き携帯電話なのだから。

本棚を捨ててしまった筆者の部屋は、とても広くなった. これからは、本も雑誌も本屋でじっくり見て、よく考えてから 最小限のものを買うことにする。これで、もう本が落ちてくる 夢など見ることはないだろう。毎晩安心して眠りにつける。

**あさひ・しょうすけ** テクニカルライター イラスト 森 祐子

# Engineering Life in

## 放浪の旅を経てエンジニアに……

#### ■今回のゲストのプロフィール

下村朋子(しもむらゆうこ):日本での営業職に疑問を感じ、自分のやりたいことを探す旅に出て、オーストラリア、カナダ、アメリカと移り住み、現在はシリコンバレーに落ち着いている。南カリフォルニア、サンディエゴ市のサンディエゴ州立大学で情報システムの学士を取得。その後、インターネットバブルの波にのってシリコンバレーへ乗り込み、スタートアップでEコマースのサーバサイドのバックエンド構築に従事する。趣味は旅行。アフリカ大陸最高峰キリマンジャロに登頂。その他、コスタリカ、中国、メキシコ、ヨーロッパなど。yuko-sv@sbcglobal.net

#### ☆ 放浪の旅へ……プログラミングと出会う

トニー さて、アメリカで大学を出られた日本人エンジニアが 久々に登場したので、まずはアメリカに留学されたきっかけか らお話いただけますか?

▼村 少し長くなりますが、高校時代の話から始めます。

私は入った高校が合わず、中退して広告代理店の営業として 就職しました。仕事は楽しかったのですが、それでもやはり高 校を卒業したいと思い、夜間高校に入りました。夜学の担任の 先生が大の旅行好きで、フィリピンの山奥に一人で蝶を取りに 行かれたこともあるそうです。それに影響されて旅行や冒険が したいと思い、卒業後オーストラリアにワーキングホリディで 行きました。英語ができるようになりたかったので、カウンター のサンドイッチ屋さんとか町の工場とか、日本人のいない環境 で仕事をしました。21歳の頃です。

**トニー** オーストラリアに行かれたときは、英語はできたのですか? またエンジニアリングは?

**下村** 英語はまったくできませんでした。だから英語が必要なアルバイトを選んだのです。エンジニアリングは興味がなかったというか、まだコンピュータがあることさえ気づいていませんでした(笑)。

オーストラリアで12か月を過ごした後、また日本に戻ってバイトをし、今度はカナダに行きました。そのときは整体に興味があり、勉強したかったのですが、結局あまりよい手がかりが見つかりませんでした。せっかく大自然が豊富なカナダに来たのだから牧場で働こうと思い、牧場の仕事を探してハイジみたいな生活を3か月間過ごしました。その後、カナダでいろいろな人と出会い、会社をやめて海外の大学に留学していた人達に感化され、自分も海外の大学で勉強したいと考えました。

トニー ワーキングホリディを利用されたのですよね?

下村 そうです。その後日本に戻り、本格的にアメリカの大学に入るための準備をし、アメリカに来ました。オレゴン州の大学でした。整体治療の分野に興味があり、カイロプラクターをめざすため、その習得科目を勉強することにしていたのですが、医学の準備コースの英語がとても難しく、挫折しそうになりました。そのうちに国連などの国際的に貢献できる仕事をしたいと思い、その学科がある南カルフォルニアのサンディエゴ

の大学に編入しました. でも現実を調べてみると, なかなか国 連などのそういう政府関係の仕事をするにはいろいろな制限が あり, キャリアにつながるか疑問がありました. それで, 国際 ビジネスに専攻をまた変更しました.

**トニー** 夜学の先生の影響でオーストラリアへ,整体療法を求めてカナダへ,そしてアメリカですか,まさに放浪の旅ですね!

下村 いえいえ(笑). この先にまだエンジニアリングに落ち着くまでのストーリーがあります! 卒業後,アメリカに残るための就労ビザのサポートを得るためには,一般的なビジネスよりもコンピュータの知識が非常にプラスになるとわかりました. それで MIS 科<sup>注1</sup>に編入したのです. まったく未知の世界だったのですが,宿題のプログラミングに夢中になり,つい徹夜してしまったりして,コンピュータの分野が自分に向いているのだと気づきました.

#### ☆ アメリカでの大学生活

▶= アメリカの大学生活はどうでした?

下村 はじめの頃は英語力が気になりますね、TOEFLのスコアは日本で準備していたのであったのですが、生きた英語での授業はまた違います。

トニー そうですよね、とくに文系を進んでいたらたくさん本を読まなくてはいけないし、論文やエッセイもたくさん書かなければならないし、クラスでも発表したりディベートできないといけないから、大学レベルの英語力はネイティブの人でも苦労しています。

下村 やっぱりそうですか…… もっとも困ったことは、グループプロジェクトですね. 時間にルーズな人や、グループでミーティングしてもただ喋るだけでいっこうに仕事をしないフリーライダーと呼ばれる人などもいて、苦労しました.

トニー そうですよね、一見フレンドリーなアメリカ人達が、一緒に仕事をしてみると意外と違った側面を見せてくれますよね. ☆ シリコンバレーのスタートアップにいきなり入社……

#### <sup>、</sup>シリコンパレーのスタートアップにいきなり入社…… - そしてレイオフ

**トニー** シリコンバレーには、スタートアップにいきなり入ったのですよね?

下村 エンジニアとして働くならシリコンバレーでと思い、 在学中に最後の単位をインターンとして取ることに決め、卒業 前にいきなりシリコンバレーに引っ越してきました。オンライ ンショッピングをやっているスタートアップの会社で、サーバ サイドプログラミングとデータベースプログラミングなどの

注1: Management Information System の略, 日本の情報管理化に若干似ているが、管理職系の人達にいかに IT を利用するか, ビジネス面からアプローチをする分野.

## 対談編

e-Commerce のバックエンドの構築に従事しました。大学でやっていたのは C や Java だったので Perl の経験はなかったのですが、インターンの間に必死で覚え、3か月後の卒業と同時に正式採用が決まりました。その1年後にシステムの移行があり、サーバを Windows から Linux、データベースを SQL サーバから PostgreSQL、そして言語を Perl から PHP に置き換える大がかりなデータマイグレーションを学ぶことができました。のちに転職する際に、この経験に救われることになるのですが……

トニー インターン制度を利用するのは、なかなかスマートなやり方ですね。現在の会社に移ったのは何がきっかけでしたか?

下村 その会社の経営状態が危うくなってきて、それに拍車をかけたのが 9/11 のテロでした。開発部の半分がレイオフになり、私もその対象となったのです。アメリカではよくあることのようですが、日本の雇用制度になれていた私にはかなりショックでした。インターネットバブルも弾けたし、テロ後だったので非常に難しい状況でしたが、経験と即戦力性を買われ、今の会社に移ることができました。

トニー それは、下村さんにスキルがあり、ネットワーク能力が高かったからでしょうね。多くの外国人エンジニアが帰国したり、アメリカ人もシリコンバレーを離れていますから。シリコンバレーで驚いたことは?

下村 サンディエゴや南カルフォルニアに比べるとアジア系の人々が多く、引っ越し先のサニーベールはとくにインド人が多く住んでいました。留学生の頃は自分の英語力をいつも気にしていたのですが、シリコンバレーでは英語力ではなく仕事で人を評価するのだと感じました。

#### ☆ 一人何役もこなす

▶== 現在の職場ではどんな事を?

下村 現在の会社では、おもに B2B/B2Cシステムの構築における設計/導入/運用及びプロジェクトのマネージメントをやっています。今手がけているプロジェクトは Failure Analysis、日本語でいうと失敗原因解析システムの開発をしています。過去の失敗事例を分析し、体系化することにより同じミスを防ぐためのシステムです。

以前の会社では、一開発者として言われたものを作っていればよかったのですが、今の会社では、データベース設計から、プログラミング、導入サポートなど、一人で何役もこなしています(笑).

この分野のビジネスはとても競争が激しいので、シンプルに サポートできて、いかに汎用性を高くしてコストを削減してい くかが課題です。また、Web系の技術はドンドン変わっていく ので、それに対して敏感に情報を集めたりと、常に勉強してい かなければなりません。とくにアーキテクトの部分では、まだまだ納得のいく仕事ができていないですね。

**トニー** それはどういうことですか?

下村 大きい会社だと同僚や先輩の 意見を聞いたり、各分野の専門の人に 相談できますが、今は私が開発の責任 者なので自分の考えた方法が最善なの



下村朋子氏

か?と心配になるのです.まあ、細かい技術的な疑問は友人とかに聞いたりしています.たとえば DB チューニングのノウハウなどは、データベースの会社に勤めている友人に聞いたりしてヒントを得ています.

**トニー** ネットワーキングで知り合った人達ですか?

下村 まあ、そういう人達もいますね、後は、コミュニティカレッジなど、安価にさまざまなプログラミングのクラスを受けられる環境がそろっているので、それを利用します。そこで基本的なことは覚えられるし、友達の輪も広がりますよ。やっぱり自分から新しい情報を集めるテクニックとか、知らないことを教えてくれる人を周りに作るのは大事です。

**トニー** シリコンバレーらしいネットワークの活用術を実践していますね。今後は?

下村 バックエンドをやっていたので、もう少しユーザーに近い仕事をしてみたいですね、バックエンドの技術がどんどん簡易化されていく中で、インターフェースのデザインがますます重要視されてくると思います。それをうまく生かしたEラーニングや教育ソフトが面白いと思います。自分のペースで学んだりできるシステムが安価に供給されれば、場所を選ばずにいろいろなことが学べるし、たとえば体が不自由な人や家庭の主婦とかでもドンドン利用できると思うのです。Flashとかインタラクティブなものは学ぶ人を飽きさせないし、フィードバックがあると面白く、作るほうもクリエイティブな意欲が沸きます。

#### 対談を終えて:

じつに背景がさまざまなエンジニアがいるとつくづく感じた 対談だった。とくに放浪の旅の中から出てきたエンジニアリン グの話が非常に新鮮だった。さまざまなことにトライした結果 がエンジニアリングだった。一見大人しい日本人女性の雰囲気 なのだが、下村氏はフットワークも軽く、行動力がかなりある と思う。かなりアグレッシブにネットワーキングを活用して、 自分の技術的スキルを日々磨いている。

 ${}^{\textstyle \blacktriangleright = -\cdot \not = \nu} \quad {}^{\textstyle \text{htchin@attglobal.net}} \quad WinHawk \; Consulting}$ 

PRODUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCT

## HARD WARE

● CPU モジュール-

## RCM3400 RabbitCore

- Z80/Z180 を基本とした命令セットをもつ CPU, Rabbit 3000 を搭載した CPU モ ジュール.
- 小型サイズの基板 (34 × 29mm) に, 512K フラッシュメモリ/512K SRAM または 256K フラッシュメモリ/256K SRAM, 五つのシ リアルポート、8 チャネルのゲインを搭載
- プログラム可能なアナログ入力を搭載した 29.4MHz で走る Low-EMI の Rabbit 3000 ベースの CPU サブシステム。
- あらかじめ割り当てられた MAC IDを装備 することで、Ethernet の利用が可能.

■ 東京電子販売(株) 価格:下記へ問い合わせ

TEL: 03-5350-6711 FAX: 03-5350-6867



● 16 ビット 1 チップマイコンー

## H8S/2168F

- PC サーバのファンコントロールなどに適 した 16 ビット 1 チップマイコン.
- PC サーバの周辺ハードウェア用の共通インターフェースである, IPMI 仕様バージョン 1.5 に準拠した各周辺機能を内蔵。
- 周辺ハードウェアの管理システムの高機能化と,遠隔管理を含めた高信頼化をコンパクトに実現。
- 通信インターフェースとして、シリアルインターフェース 3 チャネルに加え、 $I^2$ C バスインターフェースを 6 チャネル内蔵しており、BMC につながるメモリ、外部補助基板、各種センサとの通信が可能。
- イベント機能付き PWM タイマを内蔵する ことにより、PC サーバに不可欠なファン の定速動作を実現することが可能、

■ (株) ルネサス テクノロジ サンプル価格: ¥1,700 TEL: 03-5201-5276



● MPEG-4 マルチコーデック LSI -

## Marvie3

- W-CDMA 端末などに用いられる MPEG-4 シンプルプロファイルの圧縮/伸張処理に 対応
- ・QVGA (320 × 240 画素) サイズの液晶に対応し、MPEG-4 規格に準拠した動画像の圧縮/伸張を低消費電力で実現。
- 3 系統の同時圧縮/伸張により、TV 電話を 使いながら相手側画像の録画 (圧縮 2 系統, 伸張 1 系統) が可能.
- ・インターネットなどのコンテンツと、蓄積 メディアデータを同時に再生しながら録画 (圧縮1系統、伸張2系統)が可能.

■ 松下電器産業 (株) サンプル価格: ¥5,000 TEL: 075-951-8151

E-mail: semiconpress@scd.mei.co.jp



●パワーマネジメント IC -

## TPS2370/TPS2383

- 「TPS2370」は Power Over Ethernet を実現するパワーインターフェーススイッチ, 「TPS2383」はパワーマネージャ。
- ・「TPS2370」は、電源供給機器と負荷側電源機器間のインターフェースとして動作し、標準の Ethernet 用ツイストペアケーブルに接続された負荷側電源機器の検出、分類および低電圧ロックアウト、突入電流制限、FETスイッチの制御など、IEEE 802.3af 規格に準拠するために必要な各機能を提供、導通抵抗 $0.3\Omega$ の内蔵 FETにより、最大の電源供給能力を提供し、システム内の発熱を最小に抑える。また、外付けの $25k\Omega$ 検出抵抗を使用することにより、正確なPD検出機能を提供、
- 「TPS2383」は、最高 8 ポートまでの Ethernet ポートへの電源供給を個々に独立して管理する機能を備える。すべての動作は、 $I^2C$  シリアルインターフェース経由によるレジスタのリード/ライト動作によって 制御される

■ 日本テキサス・インスツルメンツ(株)

価格: \$1.25 (TPS2370/1,000 個時) \$7.00 (TPS2383/1,000 個時) FAX: 0120-81-0036

URL: http://www.tij.co.jp/pic/

● OP アンプ ー

## AM-7372S

- 高速, 大電流出力のデュアル電圧帰還型 OPアンプ.
- ± 15V 電源, ± 5V 電源使用時の特性を規 定した製品.
- 85dBのオープンループ利得の性能を維持して、ゲインバンド幅積は120MHz、スリュー率は3000V/µs、150mAの大電流出力性能を実現。
- 消費電力は、1アンプあたり 6.5mA
- 最高高調波ひずみは, 80dB/1kHz 2Vpp.
- 差動位相/利得は, 0.01%/0.02 ?
- 16 ピン SOP パッケージで供給.

■ デイテル(株)

価格: ¥440 (10 ~ 24 個時) TEL: 03-3779-1031 FAX: 03-3779-1030



● FPGA コンフィグレーションモジュール ――

## JtagLink JLA32M

- JTAG 対応の FPGA 自動コンフィグレーションモジュール。
- 100 万ゲート規模の FPGA 回路データの平均書き込み時間は、約 25 秒.
- 100万ゲート規模 FPGA の自動コンフィグレーション時間は、約1秒。
- PC のパラレルポートに装着したまま, Quartus II/iMPACT からユーザ基板への手 動コンフィグレーションが可能.
- 自動コンフィグレーション実行前に、各 FPGAのデバイスIDを照合。
- 32M ビットのフラッシュメモリを搭載.
- Altera/Xilinxの単一環境,および混在環境でのコンフィグレーションに対応し、JTAGチェーン中の非 FPGA デバイスを自動スキップ.

■ (株) DesignGateway

価格: ¥26,800 FAX: 03-6644-1121 E-mail: info@dgway.com



## HARD WARE

● Ethernet モジュール ――

## **Digi Connect ME**

- 32 ビット Ethernet CPU NS7520 を搭載し た小型組み込みネットワークモジュール.
- 10/100Base-T Ethernet と高速なシリアルイ ンターフェースをもち,製品基板上のシリ アル信号に同製品を接続するだけで、ネッ トワーク化を実現。
- 18.29 × 18.67 × 36.57mm のコンパクトな サイズにより、従来 Ethernet 対応が困難で あった小型機器へも対応.
- ネットワーク基本ソフトである NET+ OS を搭載し, TCP/IP, Web サーバをはじめと する各種ネットワークアプリケーションを 内蔵
- 「NET+Works | 統合開発キットにより、特 有のアプリケーション開発やカスタマイズ を行える
- 「NS7520」は、ARM7をコアに、10/100 Base-T Ethernet MAC, 13 チャネル DMA コントローラ、メモリコントローラなどの 主要周辺回路を1チップ化

■ ネットシリコン ジャパン(株)

価格: 下記へ問い合わせ

TEL: 03-5428-0261 FAX: 03-5428-0262 URL: http://www.netsilicon.co.jp/

●制御用 USB I/F コントロールユニット ----

## **USB 10-8**

- USB に対応した入出力制御ユニット。
- $\forall 120 \text{mm} \text{m}$ 省スペースで I/O 機能の追加が可能
- ブリンク機能,立ち上がり/立ち下りのラッ チ機能などの関数が標準で装備されている ため、プログラムの構築が簡単.
- ディップスイッチの使用により、最大 127 デ バイスまでの増設が可能
- 入出力はフォトカプラ入力 8 点, オープン コレクタ出力8点を用意
- パソコンからのセルフパワーでも利用可能。
- USB バージョン 1.1 準拠で、フルスピード 12Mbps に対応.
- ・使用周囲温度は0~40°C、保存周囲温度  $\pm 0 \sim 50 \,^{\circ}\text{C}$

■ (株) エヌエスティー

価格: ¥15,000

TEL: 053-428-4823 FAX: 053-428-4312



●シングルボードコンピュータ -

## SAGP-845EV

- IEI 社が開発した, AGP インターフェース の PIAGP シリーズのシングルボードコン ピュータ (SBC).
- SBC の AGP バスの信号を、新しい PIAGP バスまで変換。
- オンボード VGA 機能が要求を満足できな い場合、内蔵された 2x ~ 8xAGP を通じ、 高速の画像データバスを提供.
- PIAGP インターフェースのバックプレーン は、CPUスロット用に PIAGP および PICMG を揃え, 拡張は AGP と PCI を標準 インターフェースとしている.
- ・従来の PICMG 機能をサポートし、バー ジョンアップの際には、PIAGPの CPU カードにも変更可能

■ エーワン(株)

価格:下記へ問い合わせ

TEL: 0568-85-8511 FAX: 0568-85-8501



● SH-4 CPU ボード ―

## MS104-SH4

- PC/104 標準バスに準拠し、組み込みアプ リケーションの構築に適する CPU ボード、
- PC/104 規格のモジュールを増設すること で、機能拡張が可能。
- •ルネサステクノロジ社製の SH7750R (240MHz)を搭載.
- 標準 OS に Linux (カーネルバージョン 2.4)
- 16M バイトのフラッシュメモリ、32M バイ トの SDRAM を標準搭載
- 10/100Base-TX を 1 ポート装備.
- CompactFlash (Type I) を 1 ポート装備.
- シリアル I/F は、EIA-232 ドライバを 2 ポー ト搭載し、最大伝送速度は921.6kbps.

■ (株) アルファプロジェクト

価格: ¥42,800

TEL: 053-464-2166FAX: 053-464-3737

E-mail: sales@apnet.co.jp



●指紋認証システム開発キット -

## **Finger Attestor** for T-Engine

- 静電容量方式スイープ型センサを用いた, 指紋認証システム.
- サイズは 192 ドット(17.0mm) × 8 ライン (3.0mm), 解像度は 363dpi.
- 携帯電話や携帯端末などの小型組込み機器 への最適化を実現.
- 用途に応じてセキュリティレベルの変更が
- カーソル、ポインティングデバイスとして も使えるデュアル機能
- 動作電圧は 2.5 ~ 3.3V, 消費電流は 5mA.

■ パーソナルメディア(株)

価格: ¥140,000 TEL: 03-5702-7858

E-mail: te-sales@personal-media.co.jp



● CPU ボード開発キット---

## **Embedded Linux Reference** Kit for MontaVista

- Geode CPU ボード上での MontaVista Linux の性能を評価するためのスタータキット、
- CPU ボード, I/O ボード × 2, OS, 各種ド ライバ(拡張キット)および回路図で構成.
- プリビルドされているカーネル, ルート ファイルをインストールするだけで, Geode CPU, I/Oボード上での基本的な実 行環境が構築可能.
- 拡張キットをアドオンすることにより、 CPU、I/Oボードが搭載するほとんどのI/O の使用が可能になる.
- 同梱のハードウェアはピノー社製で、米国 ナショナルセミコンダクタ社 x86 互換 CPU Geode を搭載している.

■ 加賀電子(株) 価格: ¥500,000

TEL: 03-3942-6295 FAX: 03-3942-7399

Interface Oct. 2003

■弊誌では新製品に関するニュースリリースを募集しております。

宛先は、〒170-8461 東京都豊島区巣鴨 1-14-2 Interface 編集部ニュースリリース係 (編集部) FAX: (03)5395-2127, E-mail: mngnews@cqpub.co.jp

RUDUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCT

## HARD WARE

●コンパクトコントローラ -

## AS-C1000

- Altera 社の FPGA デバイス「Cyclone」を採用し、Nios プロセッサを組み込んだ可塑性の高いコンパクトなシステムを構築。
- キー入力,表示部一体型モータコントロール基板は,総計50桁の7セグメント表示とスイッチ入力,4軸のモータを制御。
- FPGA の構成を変えることで、同一の基板で4種類の機能を実現
- 個々のIC間の電気特性を考慮する必要がなく、電気特性のミスマッチによる不具合の発生がなくなる.
- ロジックデバイスを1個のデバイスに集約できるため、配線パターンを削減でき、ノイズなどの影響を最小限に抑えることができる。
- 目的の仕様にフィットしたシステムをコンパクトに実現可能。
- 仕様変更にともなう回路変更の必要が発生 しても、IC やユニットを取り替える必要が ない.

■ シーク電子工業(株) 価格:下記へ問い合わせ

TEL: 075-621-6792 FAX: 075-621-6679

URL: http://www.seekgr.com/

#### ● USB2 ビデオカメラ ―

## Lu100 シリーズ

- Limenera 社が開発したメガピクセルカメラで、広範囲なアプリケーションに対応できるようデザインされている。
- カラーまたはモノクローム、プログレッシ ブスキャン、1.3M ピクセル CMOS センサ を搭載。
- 1280 × 1024 ピクセル分解能, オンボード 処理で工業用, 科学用のアプリケーション に高品質イメージを提供。
- ライブで連続 Video イメージや、スチールイメージを非圧縮で、USB2 インターフェースを介して取り込むことができる。
- フレームグラバーボードは不要.

#### ■ (株) アルゴ 価格: ¥128,000

TEL: 06-6339-3366 FAX: 06-6339-3365

E-mail: argo@argocorp.com



#### ●ディジタルオシロスコープ ──

## DL1640/DL1640L DC 電源モデル

- 「DL1640」は8Mワード,「DL1640L」は32Mワードメモリのディジタルオシロスコープ。
- 別売の充電式バッテリボックスの併用で、 約2時間のバッテリ駆動が可能。
- AC アダプタ機能を内蔵し、AC ラインから 電源供給を受けられる。
- 停電や電圧低下などのライン電源トラブル時には、自動的にバッテリ駆動に切り替わり、測定の継続が可能.
- 4 チャネル使用時でも最大で 32M ワードの データを捕捉することが可能なため、長時 間の測定でもサンプリングスピードを犠牲 にすることなく、現象の全体と詳細を一度 に観察することが可能.

#### ■ 横河電機(株)

価格: ¥680,000 (DL1640) ¥950,000 (DL1640L)

TEL: 0120-137-046 FAX: 0422-52-6624



#### ●プロトコルテスタ ―

## K15 シリーズ

- UMTS/W-CDMA, GPRS, GSM, CDMA 2000, cdmaOne, EDGE など最新の 3G ネットワーク用プラットホームをサポートしたプロトコルテスタ.
- 3G ネットワークの運用/保守で、総合的でリアルタイムな解析が可能。
- 高度な解析項目にも柔軟に対応する, 3G 用エキスパートシステムを搭載.
- リアルタイムマルチインターフェースとして、コールトレース機能を搭載し、コールトレースが動作中でもストリームデータをディスクに収集可能。
- 自動パラメータ設定機能などで、3Gネットワークの複雑な解析を自動化し、ネットワークのダウンタイムを大幅に削減。
- データ取り込みとリアルタイムアプリケーションの同時動作を可能にし、より強力な解析を実現。

#### ■ 日本テクトロニクス(株)

価格: ¥12,000,000 ~

TEL: 03-3448-3010 FAX: 0120-046-011

#### ●メモリカード ――

## miniSD カード

- 「RP-SS032BJ1K」は32Mバイト,「RP-SS064BJ1K」は64Mバイトの記憶容量を持ち,静止画像記録枚数は約31枚と64枚,音楽データ録音時間は約40分と80分,平均転送レートは2Mバイト/s.
- 表面積は現行のSDカード比56%のコンパクトサイズで、SDメモリカードと同様にSDMI 規格準拠の高速アクセスおよび高度な著作権保護機能を装備。
- 付属の miniSD アダプタを使用することで、 現行の SD メモリカード応用商品にも使用 が可能。

#### ■ 松下電器産業(株) 価格:オープン価格 TEL:0120-878-365





#### ● Linux サーバ -

## L-Box

- ブロードバンドに対応し情報端末の制御を可能とする、小型 Linux サーバ
- 119×68×98mm, 重さ267gと小型,軽量で,Ethernet, RS-232-C, PCMCIAカード,無線LANカードなど各種インターフェース端子を装備。
- ADSLなどのブロードバンドに対応する ゲートウェイ機能と、接続している各種情報端末を不正なアクセスから守るファイアウォール機能を有する。
- IPv4/IPv6 に対応.
- 低消費電力設計で発熱量を抑え、安定した 常時利用が可能.
- OSにはオープンソースの Linux を採用し、 周辺機器に合わせた OS の拡張やアプリケーションソフトの開発が可能。
- モバイル SOHO,ホームセキュリティ,アメニティコントロール,ネット家電,遠隔監視などの利用モデルに適する。

#### ■ NTT コムウェア(株)

価格: ¥49,800 TEL: 03-5463-5779

E-mail: kouhou@nttcom.co.jp

## SOFT IIIARF =

● ITRON 仕様 OS —

## TOPPERS/IDL-Pro

- 「TOPPERS プロジェクト」で開発された, TOPPERS/IDLカーネルに、TCP/IPプロト コルと FAT ファイルシステムが移植されて おり、ネットワークやファイルシステムの 利用が可能。
- オプションで、さまざまなミドルウェアを
- 目的別にミドルウェアを組み合わせ、標準 ハードウェアにインテグレーションした各 種プロトタイプキットを提供.

■ (株) エーアイコーポレーション

価格:下記へ問い合わせ

TEL: 03-3493-7981 FAX: 03-3493-7993

E-mail: sales@aicp.co.jp

●リアルタイムサブシステム -

## **Hyper Kernel**

- ・米国ネマトロン社が開発した、Windows環 境下でリアルタイムオペレーションを可能 とするリアルタイムサブシステム.
- Windows と共存して動作するが、完全な独 立実行環境を有する.
- スレッドは同製品環境下で実行されるた め、リアルタイムアプリケーションと非リ アルタイムアプリケーションを同時に実行 することが可能
- ラウンドロビン法を用いた独自のスケ ジューラにより、Windows のスケジュール
- Windows とのデータの受け渡しは、シェ アードメモリを介して行われ、メモリアク セスは用意された関数によって実現.
- ・ドライバ開発キットなどは不要.
- Windows HAL の変更は不要.

■ アークシステムズ(株)

TEL: 03-3847-0216 FAX: 03-3847-0235

価格:下記へ問い合わせ

#### Borland C#Builder for the

#### Microsoft .NET Framework 日本語版

- · NET Windows Forms, Web Forms, ASP.NET, ADO.NETを含め, Microsoft .NET Framework に完全に対応しており, デスクトップ, 社内業務, Web アプリケー ション, Web サービス, サーバコンポーネ ントなどの開発が可能.
- 同社の CORBA 技術に基づく Borland Janeva により、ブリッジ技術に頼ることな く J2EEと CORBA アプリケーションを高 速に統合可能
- · BDP (Borland Data Provider) for ADO.NET は、.NETデータタイプに完全対応した標準準 拠のデータアクセスコンポーネント、プログ ラムを変更することなく,他のデータベース に移行することができ、Microsoft SQL Server, Oracle, IBM DB2, Borland InterBase などの主要なデータベースを.NET アプリ ケーションで利用することが可能.

■ ボーランド(株)

価格: ¥10,000~ ¥360,000

TEL: 03-5350-9380 FAX: 03-5350-9369

URL: http://www.borland.co.jp/

●リアルタイム Java バーチャルマシン-

## **JTime**

- 米国タイムシス社が開発した, リアルタイ ム Java 仕様に完全対応した組み込み JVM とその開発環境である「JTime SDK」
- サンマイクロシステムズ社が認証した, 完 全にパフォーマンス予測可能な JVM であ り、あらゆる組み込みシステムにおいてリ アルタイムオペレーションを実現
- JVM として「TimeSys Linux SDK」のツー ルとして提供され、「JTime SDK」は同社 のリアルタイム Linux パッケージである 「TimeSys Linux/Real-Time」と組み合わせ ることで、組み込みリアルタイムシステム に最適なパッケージとして提供.
- 「JTime」と「TimeSys Linux/Real-Time」 のパッケージには、統合性の高い Java/ Linuxの開発環境およびランタイム環境が 含まれており、GNU ツールチェイン、ルー トファイルシステム,全ての Linux パッ ケージ, ユーティリティおよびライブラリ を提供

■ (株)日新システムズ 価格: 下記へ問い合わせ TEL: 075-344-7977 E-mail: info@co-nss.co.jp ● Linux 版ブラウザ開発キット ――

## NetFront v3.1 SDK for Linux

- •情報家電向けブラウザを、Linux上に短期 間で移植、カスタマイズが可能な SDK 開 発キット
- Linux ディストリビューションとして、モ ンタビスタソフトウエア社の「MontaVista Linux」に対応.
- GUI 環境として, 「MontaVista Graphics /GTK+」, トロルテック社の「Ot/Embedded」 および「Otopia」をサポート.
- ウィンドウシステム API 「AWS | により、 X Window System や Qt/Embedded のウィ ンドウシステム上で, NetFront のブラウ ザ機能を実現.
- Linux 上でポピュラーな「Glade」「GTK+」 「Otopia」などの開発環境を使用して、ユー ザーインターフェースのカスタマイズやブ ラウザアプリケーションの開発が可能.
- プラグインオプションとして, 「Flash 6 (Macromedia) | Thelix DNA Client (Real Player) | Adobe Reader for NetFront (Adobe Systems) | などの提供を予定。

■ (株) ACCESS

価格: ¥5,000,000~ TEL: 03-5259-3685 FAX: 03-5259-3684

E-mail: prinfo@access.co.jp

● DSP アプリケーション開発用コンパイラ――

## SuperH RISC engine C/C++ コンパイラ Ver.8.0

- 積和演算や行列演算など DSP 特有の演算 命令をC言語で記述する「DSP-C拡張言語 仕様」をサポートしているため、DSP の基 本的な知識で C 言語による平易な記述でプ ログラムを作成でき, デバッグ, 保守を容
- DSP アプリケーションの開発期間を、アセ ンブラ言語で作成する場合と比較して, 同 社比で約1/5以下に短縮可能
- これまで CPU で行っていた画像や音声な どのデータ処理を DSP の処理とすること が容易であり, 処理性能の向上を実現.
- DSP 性能を発揮するための最適化したコー ドの生成により、CPU 処理と比較して2~ 4倍の処理性能向上が可能

■ (株) ルネサス テクノロジ 価格: ¥198,000~ ¥398,000

TEL: 03-5201-5022



■弊誌では新製品に関するニュースリリースを募集しております。

宛先は、〒170-8461 東京都豊島区巣鴨 1-14-2 Interface 編集部ニュースリリース係 FAX: (03)5395-2127, E-mail: mngnews@cqpub.co.jp

<u>PRODUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCTS | NEW PRODUCT</u>

## SOFT WARE

携帯情報端末向けプラットホーム

# Windows Mobile 2003 software for Pocket PC

- 無線 LAN ゼロコンフィグレーション機能に より、ネットワークを自動検知し、接続設 定を行うことが可能.
- Bluetooth をネイティブサポートしており、 多種多様な機器との通信が可能
- 同期ソフト「Microsoft ActiveSync 3.7」 により、予定表、メール、連絡先など Microsoft Outlookの最新データの効率的 な取得が可能
- Exchange Server 2003とは、デスクトップ PCを介することなく、直接データの同期 が可能となる。
- 画像閲覧ソフト「Pictures」により、ディジタルカメラなどで撮影した写真画像の保存、編集、表示が可能。
- Windows Media 9シリーズの CODEC をサポートしており、デスクトップ PC のWindows Media 9シリーズの音声やビデオコンテンツの閲覧が可能。

■ マイクロソフト(株) 価格:下記へ問い合わせ TEL: 03-5454-2300

●デバイスドライバ自動生成ツール・

## IAR MakeApp for ルネサス H8/SH

- IAR システムズ社が開発した, ルネサステクノロジ社製 H8 および SH 用のデバイスドライバ自動生成ツール.
- 新 H8 シリーズおよび 3 種類の新 SH-2 デバイスをサポート。
- 使用/不使用のポートピンの最新状態をカラーコードで示し、グラフィカルなピン使用表示が可能.
- ・ポイントアンドクリック動作だけで、周辺 モジュールのデバイスドライバ(初期化、 ランタイム、割り込みハンドラ)の C ソー スコードを自動生成。
- Project Explorerで、デバイスドライバ関数 や割り込みハンドラを含めプロジェクト状態の概観を表示。
- 最適コードジェネレータが、効率的でテストされたソースコードを生成し、ルールチェッカと特殊機能レジスタ値の自動計算で、開発期間とデバッグ作業を削減。
- いつでもリソース使用状況がわかる視覚的な概観表示機能を搭載。

■ (株) プロトン ソフトボート事業部

価格:下記へ問い合わせ

TEL: 03-5337-6431 FAX: 03-5337-6130

●マルチタスクデバッグ環境 -

# HI ApplicationEngine for T-Engine

- Windows 環境でマルチタスクプログラムの デバッグを可能にする,T-Engine 用の開発 環境
- ルネサステクノロジ社製の SuperH 純正 C コンパイラおよび GNU 開発環境に対応.
- ファイルシステムおよびグラフィックシステムを標準で搭載しており、アプリケーション開発が容易。
- T-Kernel BASIC 版に対応しており、ITRON から T-Kernel への移行に適する.

■パーソナルメディア(株)

価格: ¥98,000

TEL: 03-5702-7858 FAX: 03-5702-7857 E-mail: te-sales@persnal-media.co.jp URL: http://www.personal-media.co.jp/te/

●ユビキタスデータベース -

## **Encirq 3e**

- 米国エンサーク社が開発した、組み込みシステムにおいてデータベースの設計を容易に行える、組み込み用データフロー管理ソフトウェア。
- データソースを抽象化することでデータフロー管理を行うため、開発者はネットワーク、入出力装置、補助記憶装置およびセンサなどのデータの入出力に関して考慮する必要がない。
- ・設計したデータベースは、PC上でコマンドを入力しながら対話形式で行うか、自動生成されるC言語ソースコードをビルドした上で行うかのいずれかの検証方法を選択できる。
- Oracle PL/SQL をベースとした, 組み込み 用に特化した言語「Encirg PL」を採用.
- $50 \sim 75K$  バイトという, コンパクトな コードサイズを実現,
- CPU や OS に非依存。
- SQLをサポートし、データ格納先は複数指 定可能

■ (株) エーアイコーポレーション

価格: 下記へ問い合わせ

TEL: 03-3493-7981 FAX: 03-3493-7993

E-mail : sales@aicp.co.jp

●携帯音楽プレーヤ用システム IP -

## システム IP

- 次世代音楽圧縮技術 Ogg Vorbis に対応した 携帯音楽プレーヤ用 LSI 向けシステム IP.
- Ogg Vorbis 携帯音楽プレーヤシステムの構築に必要な「ハードウェア IP」と「ソフトウェア IP」の統合パッケージで、追加のハードウェアやファームウェアは不要、
- ・「ハードウェア IP」には、独自設計の CPU と DSP を内蔵する「マルチコアアーキテクチャ」を採用し、メモリカードインターフェース、外部メモリインターフェース、液晶表示、キー入力などの各種周辺デバイスの制御回路を統合、外付け部品としては、メモリや D-A コンバータなどの最小限の部品点数で済む。

■ ファインアーク(株) 価格:下記へ問い合わせ

TEL: 03-5531-0211 FAX: 03-5531-0205

E-mail: pr@finearch.com URL: http://www.finearch.com/



#### ●開発ツール -

#### インテル VTune エンタープライズ・ アナライザ 2.0 .NET エディション

- インテル社が開発した、Webアプリケーションのコードを解析して、パフォーマンス上のボトルネックとなっている部分を見つけ出す解析ツール。
- スクリプト、ビジネスオブジェクトおよび データベースクエリを含むオブジェクトレベルの解析と同様に、多階層のトランザクションレベルの分析を行える。
- マシン間の応答時間をアクティベーションレベルで監視できる。
- マシン間でのオブジェクト呼び出し状況を 視覚的に表示するアプリケーションフロー 分析機能を搭載。
- アプリケーションコンポーネントの応答時間とパフォーマンスメトリックスの分析機能を向上
- マルチ層を対象にして解析を行った後、 VTuneパフォーマンスアナライザを使用して、個々のシステムレベルでの分析が可能。

■ エクセルソフト(株)

価格:下記へ問い合わせ

TEL: 03-5440-7875 FAX: 03-5440-7876

E-mail: intel@xlsoft.com URL: http://www.xlsoft.com/intel/

## SOFT WARE

#### ●多機能ソフトフォン ―――

#### ViBro GATE シリーズ SIP ソフトフォ ン/SIP クライアントソフト開発キット

- 「SIPソフトフォン」は、音声会話に加えて、 PBキー入力、テキスト文字列の転送、ペー ジアドレス入力による Web ブラウズ,マウ ス入力による画面への描き込みなどを可能 にした、PDA/PC用多機能ソフトフォン.
- 「SIP クライアントソフト開発キット」は、 SIPソフトフォンを短期間で開発可能にす る開発キットで、SDKでは、発呼、着信、 音声データ入出力、DTMP/TEXT CODEC 入出力などの機能をサポート.
- 音声パケット損失時でも補正によりノイズ が入らず,ステレオ CODEC に対応してい るため、回線帯域、音声内容に対して最適 なデータ形式を選択することが可能

■ (株)オーエスアイ・プラス

価格: オープン価格

TEL: 03-3794-8408 FAX: 03-3760-4800

E-mail: sales@osiplus.co.jp

● AES 暗号プログラム —

## iotaCRYPT/AES

- AES 暗号アルゴリズムを基に、独自の実装 方法を用いて AES 暗号化と復号化を, 高速 かつ省メモリで実現した,C言語版と Java 言語版の暗号プログラムをライブラリおよ びソースコードで提供、
- NIST の次世代共通鍵暗号標準化プロジェ クトで採択され、FIPS として発行された、 従来の DES 暗号に代わり現時点で最高水 準の強度をもつ暗号アルゴリズムを採用.
- Cスタティックライブラリは3K~15Kバ イト、Java クラスライブラリは 2.5K バイ トの ROM サイズを実現.
- 速度性能は、オリジナル AES プログラムの 30 倍以上の高速化を実現.
- ・ソフトウェアのみで実現しているため、特 殊なハードウェアは不要.
- ライブラリだけでなく、ソースコードで提 供することにより、組み込み用途に対して 柔軟な対応が可能.
- 導入セミナーとサポートサービスを用意

■ (株) デンソークリエイト

価格: ¥100,000~ TEL: 03-3780-7081 E-mail: info@dcinc.co.ip ●セキュリティ対策ソフト -

## インターネット ウィルスプロテクター V4

- Windows. マクロ、Java 用の 3 種類のエン ジンを搭載し、各種ウィルスに最適化され たエンジンを使用することで、ウィルスの 検出/駆除が可能で、未知のウィルスに対す る検出機能も搭載。
- エクスプローラや Outlook 用のウィルス検 出/駆除プラグイン機能を搭載。
- ウィルス感染の可能性がある経路をリアル タイムに監視
- FTP, HTTP プロトコルをサポートし, ファイアウォールやプロキシ機能を利用し ている場合でもアップデートが可能.
- ブートウィルス感染などが原因で、システ ムが起動できない場合、復旧ディスクを作 成してブートセクタの復旧が可能.
- スパムメールフィルタリング機能が搭載され ており、発信者/件名/メッセージのヘッダに フィルタリング用のキーワードを登録するこ とにより、迷惑メールの遮断が可能.
- 大容量ハードディスクをバックアップする ために、記録型の DVD メディアに対応し、 「B's Recorder GOLD5」のエンジンを搭載。

■ (株) ライフボート 価格:下記へ問い合わせ

TEL: 03-3265-1250 FAX: 03-3265-1251

●ネットワークモニタリングソフト ー

## NetworkView2

- スイスのネットワークビューソフトウェア 社が開発した、ネットワーク上の DNS, SNMP, ポートおよび MAC アドレス情報 からノードを探索し、それらの情報をもと に、部内 LAN 管理だけではなく、ネット ワークの保守,管理事業にも活用可能な ネットワーク接続図と一覧表を作成.
- 5,000 以上のハードウェアメーカーとデバ イスに関する OID データベースを標準で搭 載し、探索したノードから得られた情報を 基にある程度の機種特定が可能.
- OID データベースの新規追加や編集が可能.
- MIB (Management information base) ブラ ウザにより、相手先の SNMP エージェント よりさらに詳細なノード設定の確認が可能

#### ■ キヤノンシステムソリューションズ(株)

価格: ¥19,800 ¥12,800 (ダウンロード標準版)

TEL: 03-5730-7198

F-mail:

nv-info@canon-sol.co.jp URL: http://canon-sol.jp/



●グラフィカル開発環境 ー

## LabVIEW 7 EXPRESS 日本語版

- 一般的な計測/テストアプリケーションを構 成可能なダイアログを利用して短時間で作 成できる「Express VI」を搭載。
- ・全部で38種類の「Express Ⅵ」は、高度な 計算機能を手軽に利用でき, データ集録か らファイル I/O 信号解析まで、幅広いタス クの開発効率を向上させることができる.
- 再設計された NI-DAO ドライバフレーム ワーク, およびデータ集録と計測器制御向 けの二つの新機能「DAQ アシスタント」お よび「計測器 I/O アシスタント」を装備.

■ 日本ナショナルインスツルメンツ(株)

価格: ¥165,000 (ベースパッケージ) ¥315,000(開発システム)

¥540,000(プロフェッショナル開発システム) TEL: 03-5472-2970 FAX: 03-5472-2977

E-mail: prjapan@ni.com



● ASP.NET 学習ソフトウェア ―

## Learn!ASP.NET

- •.NET 戦略における Web アプリケーション の作成について, 実用的な技術の習得を目 的とした学習ソフトウェア.
- 「KeyStone Learn!」シリーズのローカライ
- ASP モデル以前の技術を復習した上で、 ASP.NET の各種コントロールの操作方法、 ADO.NETによるデータベース操作/管理、 XML ドキュメントの取り扱い、アプリケー ションの運用技術について学習.
- 動画やプレゼンテーション画面を多用した 講義をセミナ感覚で視聴でき、自由な時間 に自己のペースで、繰り返し学習が可能.
- Visual Basic .NET および C# のサンプルプ ログラムが付属.

■ グレープシティ(株)

予定価格: ¥58,000

TEL: 022-777-8211 FAX: 022-777-8233

E-mail: sales@grapecity.com

(編集部)

## 海外・国内イベント/セミナー情報

## NFORMATION

|                                                                                                                   | 海外イベント                                                                             | セミナー情報                                                                                                        |  |  |  |
|-------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------|--|--|--|
| 9/15-18                                                                                                           | Embedded Systems Conference Boston                                                 | システムコールで学ぶ Linux                                                                                              |  |  |  |
|                                                                                                                   | Hynes Convention Center Boston, MA, USA<br>CMP Media LLC.                          | 開催日時 : 8月 28日 (木)<br>開催場所 : ディーアイエステクノサービス研修室 (東京都文京区)                                                        |  |  |  |
|                                                                                                                   | http://www.cmp.com/eventcal/                                                       | 受講料 : 46,000円                                                                                                 |  |  |  |
|                                                                                                                   |                                                                                    | 問い合わせ先: (株)エイチアイICP事業部, <b>む</b> (03) 3719-8155, FAX (03) 3793-5109<br>http://icp.hicorp.co.jp/seminar/linux/ |  |  |  |
| 9/15-18                                                                                                           | TECHXNY/PC EXPO Jacob K.Javits Convention Center, NY, USA                          | linuxsystemcall.asp                                                                                           |  |  |  |
|                                                                                                                   | CMP Media LLC.                                                                     | 非接触 IC カード/RF タグの基礎<br>開催日時 : 8月 28日 (木)                                                                      |  |  |  |
|                                                                                                                   | http://www.techxny.com/home.cfm                                                    | 開催場所 :中央大学駿河台記念館(東京都千代田区)                                                                                     |  |  |  |
| 9/16-18                                                                                                           | COMDEX Canada 2003                                                                 | 受講料 : 52,500円(1口で1社3名まで受講可)<br>問い合わせ先: (株)トリケップス, ☎(03)3294-2547, FAX(03)3293-5831                            |  |  |  |
| <i>)</i> /10-16                                                                                                   | Metro Tronto Convention Centre, Toronto, Ontario, Canada                           | http://www.catnet.ne.jp/triceps/sem/c030828b.htm                                                              |  |  |  |
|                                                                                                                   | MediaLive International Inc.                                                       | すぐできる「組込み Linux 開発」                                                                                           |  |  |  |
|                                                                                                                   | http://www.comdex.com/canada/                                                      | 開催日時 : 8月 28日 (木) ~ 8月 29日 (金)<br>開催場所 : (株) ソリトンシステムズ本社 7F セミナールーム                                           |  |  |  |
| 9/18-21                                                                                                           | CeBIT Asia                                                                         | 受講料 : 160,000 円                                                                                               |  |  |  |
|                                                                                                                   | Shanghai New International Expo Centre, China                                      | 問い合わせ先: (株) ソリトンシステムズ トレーニング担当,<br><b>☎</b> (03) 5360-3819, training@soliton.co.jp                            |  |  |  |
|                                                                                                                   | Hannover Fairs China Ltd.<br>http://www.cebit-asia.com/                            | http://sbo.soliton.co.jp/products/embedded_                                                                   |  |  |  |
|                                                                                                                   | ncep.,, www.cebie abia.com,                                                        | sbc/LinuxSeminarHP2-3.htm<br>ネットワーク/IPv6(ネットワーク構築)                                                            |  |  |  |
| 9/30-10/1                                                                                                         | Embedded Systems Conference Asia                                                   | 開催日時 : 9月9日(火)~9月10日(水)                                                                                       |  |  |  |
|                                                                                                                   | Lakeshore Hotel, Hsinchu, Taiwan<br>CMP Media LLC.                                 | 開催場所 : 高度ポリテクセンター (千葉県千葉市)<br>受講料 : 35,000 円                                                                  |  |  |  |
|                                                                                                                   | http://www.english.escasiaexpo.com/                                                | 問い合わせ先:雇用・能力開発機構高度ポリテクセンター事業課, ☎(043) 296-2582                                                                |  |  |  |
| 0.720 10.72                                                                                                       | Indoor Co. 175-4 Co. 6                                                             | http://www.apc.ehdo.go.jp/<br>ホームネットワーク最新動向と UPNP の応用                                                         |  |  |  |
| 9/30-10/2                                                                                                         | International Test Conference 2003 Charlotte Convention Center, Charlotte, NC, USA | 開催日時 : 9月11日(木)                                                                                               |  |  |  |
|                                                                                                                   | ITC Office                                                                         | 開催場所 : オームビル (東京都千代田区)<br>受講料 : 52,700 円                                                                      |  |  |  |
|                                                                                                                   | http://www.itctestweek.org/                                                        | □ 54,700 T                                                                                                    |  |  |  |
| 9/30-10/2                                                                                                         | Communications Design Conference                                                   | http://www.catnet.ne.jp/triceps/sem/030911n.htm<br>エクストリーム・プログラミング XP 導入のためのワークショップ                           |  |  |  |
|                                                                                                                   | San Jose Convention Center, San Jose, CA, USA                                      | 開催日時 : 9月16日(火)~9月17日(水)                                                                                      |  |  |  |
|                                                                                                                   | CMP Media LLC.<br>http://cmp.iconvention.com/cdc/V40/                              | 開催場所 : SRC セミナールーム (東京都高田馬場)<br>受講料 : 78,000 円                                                                |  |  |  |
|                                                                                                                   | neep., , omp. receivements. com, ede, viv,                                         | 問い合わせ先: (株)ソフト・リサーチ・センター, ☎(03)5272-6071                                                                      |  |  |  |
|                                                                                                                   |                                                                                    | http://www.src-j.com/seminar_no/23/23_142.htm<br>情報セキュリティ技術基礎                                                 |  |  |  |
|                                                                                                                   | 国内イベント                                                                             | 開催日時 : 9月17日(水)                                                                                               |  |  |  |
| 8/28-29                                                                                                           | mobidec 2003                                                                       | 開催場所 : NRI 大手町ラーニングセンター (東京都千代田区)<br>受講料 : 47.250 円                                                           |  |  |  |
|                                                                                                                   | 青山ダイヤモンドホール(東京都渋谷区)                                                                | 問い合わせ先: (株)エイチアイICP事業部, ☎(03)3719-8155, FAX(03)3793-5109                                                      |  |  |  |
|                                                                                                                   | モビデック事務局<br>http://www.shoeisha.com/event/mobidec/                                 | http://icp.hicorp.co.jp/seminar/nrisecu/ secu kiso.asp                                                        |  |  |  |
|                                                                                                                   | neep., / www.bnoelbna.com/ evene/ moblace/                                         | Windows セキュリティ - 攻撃手法の理解と対策 -                                                                                 |  |  |  |
| 9/1                                                                                                               | <b>802.11 PLANET Conference&amp;Expo Japan 2003</b><br>渋谷マークシティ(東京都渋谷区)            | 開催日時 : 9月 19日 (金)<br>開催場所 : NRI 大手町ラーニングセンター (東京都千代田区)                                                        |  |  |  |
|                                                                                                                   | IDG ジャパン/米国 Jupitermedia 社                                                         | 受講料 : 47,250円                                                                                                 |  |  |  |
|                                                                                                                   | http://www.idg.co.jp/expo/j802.11/                                                 | 問い合わせ先: (株)エイチアイICP事業部、                                                                                       |  |  |  |
| 9/10-12                                                                                                           | 第5回 自動認識総合展                                                                        | secu win.asp                                                                                                  |  |  |  |
| J, 10 12                                                                                                          | 東京国際展示場(東京ビッグサイト,東京都江東区)                                                           | 最新 CCD イメージセンサの特性と技術~ CCD の基礎と応用技術~<br>開催日時 : 9月 19日(金)~9月 20日(土)                                             |  |  |  |
|                                                                                                                   | (社)日本自動認識システム協会<br>http://www.autoid-expo.com/                                     | 開催場所 : CQ 出版セミナールーム<br>受講料 : 25,000 円                                                                         |  |  |  |
|                                                                                                                   | nctp://www.autoid-expo.com/                                                        | 受講料 : 25,000円<br>問い合わせ先:エレクトロニクス・セミナー事務局, ☎(03)5395-2125, FAX(03)5395-1255                                    |  |  |  |
| 9/17-20                                                                                                           | WPC EXPO 2003                                                                      | 組み込み XML 入門セミナー<br>開催日時 : 9月 26日(金)                                                                           |  |  |  |
|                                                                                                                   | 日本コンベンションセンター(幕張メッセ, 千葉県千葉市)<br>日経 BP 社                                            | 開催日時 : 9月 26日(金)<br>開催場所 : クイーンズタワー B 7F クイーンズフォーラム会議室 (横浜                                                    |  |  |  |
|                                                                                                                   | http://expo.nikkeibp.co.jp/wpc/ja/                                                 | 市西区)<br>受講料 :無料                                                                                               |  |  |  |
| 10/7-11                                                                                                           | CEATEC JAPAN 2003                                                                  | 問い合わせ先:(株)グレープシステム基本ソフトウェア事業部セミナー係,                                                                           |  |  |  |
| 10/7-11                                                                                                           | 日本コンベンションセンター(幕張メッセ,千葉県千葉市)                                                        | ☎(045)222-3761, FAX(045)222-3759<br>http://www.grape.co.jp/seminar.html                                       |  |  |  |
|                                                                                                                   | CEATEC JAPAN 運営事務局                                                                 | ビデオ信号の処理回路技術                                                                                                  |  |  |  |
|                                                                                                                   | http://www.ceatec.com/index.html                                                   | 開催日時 : 9月 27日 (土)<br>開催場所 : CQ 出版セミナールーム                                                                      |  |  |  |
| 10/29-30                                                                                                          | Internet&Mobile 2003                                                               | 受講料 : 13,000円                                                                                                 |  |  |  |
|                                                                                                                   | マイドームおおさか(大阪府大阪市)                                                                  | 問い合わせ先:エレクトロニクス・セミナー事務局, <b>☎</b> (03)5395-2125, FAX(03)5395-1255                                             |  |  |  |
|                                                                                                                   | (社)日本能率協会<br>http://www.jma.or.jp/im/                                              | PC 実習!!Java によるプロセス指向と並列プログラミング入門                                                                             |  |  |  |
|                                                                                                                   |                                                                                    | 開催日時 : 9月 29日 (月) ~ 9月 30日 (火)<br>開催場所 : SRC セミナールーム (東京都高田馬場)                                                |  |  |  |
| 10/29-31                                                                                                          | <b>DATABASE 2003 TOKYO</b><br>東京国際フォーラム(東京都千代田区)                                   | 受講料 : 68,000円                                                                                                 |  |  |  |
|                                                                                                                   | 財団法人データベース振興センター(DPC)                                                              | 問い合わせ先: (株)ソフト・リサーチ・センター, ☎(03)5272-6071<br>http://www.src-j.com/seminar no/23/23 253.htm                     |  |  |  |
|                                                                                                                   | 日本データベース協会(DINA)                                                                   | Linux GUI プログラミング                                                                                             |  |  |  |
|                                                                                                                   | http://www.dbtokyo.com/                                                            | 開催日時 : 10月6日(月)<br>開催場所 : ディーアイエステクノサービス研修室(東京都文京区)                                                           |  |  |  |
|                                                                                                                   |                                                                                    | 受講料 : 46,000 円                                                                                                |  |  |  |
| 問い合わせ先: (株) エイチアイICP 事業部, ☎ (03) 3719-8155, FAX (03) 3799-510 http://icp.hicorp.co.jp/seminar/linux/clinuxgui.asj |                                                                                    |                                                                                                               |  |  |  |
|                                                                                                                   |                                                                                    |                                                                                                               |  |  |  |

# A EGEOGIA



2003年8月号特集 「現代コンピュータ技術の基礎」 に関して

▷特集の用語解説はとても参考になりました。頭文字をとった略語などは、何気なく使っていますが、人に説明するとき間違った英語で言ってしまったり、説明できないときもあります。また略語の意味を調べるときに役立つと思うので、今月号は別保管したいと思います。 (福沢陽介)

#### その他

「プログラミングの要」にあったナンセンスとしか見えないような規約の採用に関する記事には納得させられるものが多くありました。ただ本質的にすべての担当者に理解してもらえれば不自然な規約は必要なくなるのだが、そのための時間や教育をするリソースが取れず、とりあえず乗りきるために規定されている現場が多いのかもしれないとも感じました。 (玉出のタマ) ▷「メモリプロファイリングツールを開発する」は、いわれてみれば「そうだ」と思えるほど興味がわく話題だった。もともとデータベースのプロファイリングの延長で作られているようだが、応用分野はそれ以

外にもたくさんあると思われる. プログラムの概要の説明はあるだろうが, 分野が異なる具体的な応用例もいくつか紹介されることを期待する. (N)

## アンケートの結果



興味のあった記事 (2003年8月号で実施)

- ①第1章 組み込みシステム開発の基礎知識 ②第3章 基礎からの計算科学・工学--
- シミュレーション
- ③第2章 組み込み分野へのBSDの適用
- ●第7章 作りながら学ぶコンピュータシステム技術
- ⑤第5章 徹底解説! ARM プロセッサ
- ⑥第6章 多国語文字コード処理&国際化の基 礎と実際
- ⑦日本語が使える UMLツール最新比較
- ③フリーソフトウェア徹底活用講座(第11回)
- ⑨フジワラヒロタツの現場検証(第71回)
- ⑩第4章 データベース活用技術の徹底研究
- ⑩第10章 解説! USB徹底活用技法
- ® USB Compliance Test の概要
- ◎第8章 ワイヤレスネットワーク技術入門
- ⑩第9章 ICカード技術の基礎と応用
- ⑤別冊付録 エンジニアに役立つ数式集
- **®SH-4 Linux** の割り込み処理と **PCI** の割り込み共有について
- ⑩開発技術者のためのアセンブラ入門(第20回)
- ⑩やり直しのための信号数学(第17回)
- ®メモリプロファイリングツールを開発する (基礎知識編)
- ◎シニアエンジニアの技術草子(参拾之段)

# ●応募

## 読者プレゼント



- ●応募方法:本誌読者アンケートはがきに必要 事項を記入のうえ、2003年9月30日(必 着)までにご応募ください. なお当遇者の発 表は、発送をもってかえさせていただきます.
- (1) Flash のための Swift3Dマスターブック (1名) 田崎進一/大河原浩一 共著 ISBN4-274-06527-8 (株) オーム社
- (2) ゲーム開発のための物理シミュ レーション入門 (1名)

David M.Bourg 著 榊原一矢 監訳 ISBN4-274-06526-X (株) オーム社





## 3

## 特集担当デスクから

★2号連続特集企画の第一弾は、パイプラインとスーパースカラに焦点を当て、実際に市場で使われている各種プロセッサの事例もまじえて、マイクロプロセッサについて解説しましたが、いかがだったでしょうか。★CPUコアのブロック図やパイプラインのステージ詳細など、公式には発表されていない

プロセッサもあるため、一部筆者による推定の部分があります。間違いなどありましたら、編集部までご指摘いただけると助かります。

☆次号は、キャッシュや MMU、そして例外
処理などについて、今月号同様に実際のプロセッサの事例をまじえて、徹底的に解説する
予定です。ご期待ください。

# 次号予告

# 『詳説マイクロプロセッサ ---キャッシュ/MMU/例外』

#### キャッシュ/仮想記憶/TLB/MMU/例外/割り込み/命令セットアーキテクチャ

2号連続特集の後編にあたる次号では、おもにキャッシュ、MMU、例外について解説す 3.

まずキャッシュの章では、ダイレクトマップやフルアソシアティブ、nウェイセット アソシアティブなどの代表的なキャッシュの方式や、その動作を詳細に解説する. MMU の章では、仮想記憶の概念、アドレス変換や TLB などについて、また 68 系や 86 系の MMU の動作について詳しく解説する. 例外の章では、ソフトウェア割り込みとハードウェ ア割り込みの違いや、各種プロセッサごとの割り込み処理アーキテクチャの違いなどを解 説する。

さらに、CISC から RISC へ、命令セットアーキテクチャがどのように変化してきたか を、代表的なプロセッサを例として取り上げ、各種プロセッサの命令セットについて 比較/考察を行う。

また高速化技術や高信頼性をサポートする機能について,最近話題のコンフィギュラブ ルプロセッサについても説明する.

## 編集後記

- ■「デザインウェーブ・テクノロジ・セミナー (SystemC&SystemVerilog)」が、本号発売直後 の8/29 に開催される. 名称は姉妹誌の DWM 誌 の誌名からとっている. さて,「インターフェー ス・テクノロジ・セミナー」とすると、内容は何 が良いと思われますか? 組み込み Linux?ロ ボティクス?デバドラ?通信?...... (注)
- ■2号連続企画という「暴挙」を企てたのは、何を 隠そうこの私です(笑)、今月号はもちろん、次号 の担当も私です。そして実は、Interface 増刊 TECH I Vol.18の担当も私で、さらに駄目押しで 本誌特集と同時進行! 終わるまで夏休みは取れ そうにありません(涙) ちなみに増刊もプロセッ サの話なので、頭がごっちゃになってます!?(M)
- ■夏といえば発熱. 最近の大容量 HDD は 7,200 rom ばかりになり、低発熱の 5,400rpm 品を愛用 していた私にはかなり辛いところ、遅くても低 発熱品の HDD が良いという場合は、小容量で 我慢するしかないのか…… 仕方ないので、ア ルミケースやファンなどでの対症療法を検討し ているところです.
- ■今月からインターフェースの担当になりました. トラ技からお引っ越しです。引っ越し直後なので 「どうせ編集後記は来月号からだろ」と、たかをく くっていたら、「今月から書いてね~」との指令 トラ技校了直後なので完全にネタ切れ状態 です. とりあえず、またこのスペースに文章をピッ タリ収めることから始めましょうかね.

- ■インターネットのおかげで情報公開が進むの はよいことだが、悪用も多い. よく未成年犯罪 者の氏名が掲示板に公開されて問題になる. 昔 は、口コミで一部の地域だけですんでいたもの が、全国に拡大されたというわけだ、ミニコミ なら影響は少なくても、マスコミになると大事 になる. モラルが欠落していく時代に, よりモ ラルが必要になるというのも皮肉だ.
- ■8月になって梅雨明け、昨年みたいに暑い日 があまり無かったと思っていたら、なんと7月 の日照時間の少なさが観測史上初だったようで ....... 「昔は四季がはっきりしていた」なんて話 にもなりました. 小学生の時には, 夏休みが始 まる頃はもう夏真っ盛りでしたもの. やはりこ れも環境破壊などのせいなのでしょうね.(Y2)
- ■最近、自宅には高校を卒業する娘へのダイレ クトメールが、山のように配達されてきます.配 達された DM のほとんどがごみとして廃棄され ますが、分別処理するのが大変です。反面、学 校の学生確保と運営も大変な時期に入っている 事を実感します. ただし, 知名度の高い学校か らは, それほど届きません.
- ■話題となった「バウリンガル」に続き、待望の 猫語翻訳機「ミャウリンガル」が11月ごろ発売さ れるそうです. 訳してもらえると分かれば、猫も さぞかし言いたいことがたくさんあることでしょ う. しかし飼い主にとっては、ぜひとも人間の言 葉を猫に伝えてもらいたいものですが.

## お知らせ

本誌に関するご意見・ご希望などを、綴じ込 みのハガキでお寄せください. 読者の広場への 掲載分には粗品を進呈いたします。なお、掲載 に際しては表現の一部を変更させていただくこ とがありますので、あらかじめご了承ください。

#### ▶投稿歓迎

本誌に投稿をご希望の方は、連絡先(自宅/勤 務先)を明記のうえ、テーマ、内容の概要をレポート用紙 1~2 枚にまとめて「Interface 投稿 係」までご送付ください、メールでお送りいた だいても結構です(送り先は supportinter @cqpub.co.jpまで). 追って採否をお知らせ いたします。なお、採用分には小社規定の原稿 料をお支払いいたします

#### ▶本誌掲載記事についてのご注意

本誌掲載記事には著作権があり、示されてい る技術には工業所有権が確立されている場合が あります. したがって、個人で利用される場合 以外は、所有者の許諾が必要です。また、掲載 された回路,技術,プログラムなどを利用して 生じたトラブルについては、小社ならびに著作 権者は責任を負いかねますので、ご了承ください、

本誌掲載記事を CQ 出版(株)の承諾なしに, 書籍、雑誌、Webといった媒体の形態を問わず、 転載、複写することを禁じます。

#### ▶コピーサービスのご案内

本誌バックナンバーの掲載記事については, 在庫(原則として24か月分)のないものに限り コピーサービスを行っています。コピー体裁は 雑誌見開きの、複写機による白黒コピーです なお、コピーの発送には多少時間がかかる場合 があります。

- •コピー料金(税込み)
  - 1ページにつき100円
- ・発送手数料(判型に関わらず)
- $1 \sim 10$  ページ: 100 円,  $11 \sim 30$  ページ: 200 円,  $31 \sim 50$  ページ: 300 円,  $51 \sim 100$ ページ: 400円, 101ページ以上: 600円
- 送付金額の算出方法 総ページ数×100円+発送手数料
- 入金方法
- 現金書留か郵便小為替による郵送
- 明記事項

雑誌名, 年月号, 記事タイトル, 開始ペー ジ, 総ページ数

- ・宛て先
- 〒 170-8461 東京都豊島区巣鴨 1-14-2 CQ 出版株式会社 コピーサービス係 (TEL: 03-5395-4211, FAX: 03-5395-1642) お問い合わせ先のご案内
- 在庫, バックナンバー, 年間購読送付先変更 に関して
- 販売部: 03-5395-2141
- ・広告に関して
- 広告部: 03-5395-2133
- ・雑誌本文に関して 編集部: 03-5395-2122

記事内容に関するご質問は,返信用封筒を 同封して編集部宛てに郵送してくださるようお 願いいたします. 筆者に回送してお答えいたし ます

## Interface

©CQ 出版(株) 2003 振替 00100-7-10665 2003年10月号 第29巻 第10号(通巻第316号) 2003年10月1日発行(毎月1日発行) 定価は裏表紙に表示してあります

発行人/増田久喜 編集人/相原 洋

編集/大野典宏 村上真紀 山口光樹 落合幸喜 小林由美子 デザイン・ DTP / クニメディア株式会社 表紙デザイン/株式会社プランニング・ロケッツ

本文イラスト/森 祐子

広告/澤辺 彰 中元正夫 菅原利江

発行所/CQ出版株式会社 〒170-8461 東京都豊島区巣鴨1-14-2

電話/編集部(03)5395-2122 URL http://www.cqpub.co.jp/interface/ 広告部 (03) 5395 - 2133 インターフェース編集部へのメール

販売部 (03)5395-2141 supportinter@cqpub.co.jp

CQ Publishing Co., Ltd./ 1 – 14 – 2 Sugamo, Toshima-ku, Tokyo 170-8461, Japan 印刷/クニメディア株式会社 美和印刷株式会社 製本/星野製本株式会社



日本 ABC 協会加盟誌 (新聞雑誌部数公査機構)

ISSN0387-9569

Printed in Japan